OpenAI开发者大会派礼包：大幅降低模型成本，AI语音加持App，小模型“蹭”大模型性能

创意奇才 10-02 146

默认

摘要： 奥特曼和马保国有什么共同点答都爱搞偷袭草莓的消息已经传了几个月据说这是内部的一个神秘项目似乎和前代模型颇有些不同但一直讳莫如深最接近曝光的时刻是此前山姆奥特曼在社交媒体上发布的一张...

奥特曼和马保国有什么共同点？答：都爱搞偷袭。“草莓”的消息已经传了几个月，据说这是OpenAI内部的一个神秘项目，似乎和前代模型颇有些不同。但OpenAI一直讳莫如深，最接近曝光的时刻，是此前CEO山姆·奥特曼（Sam Altman）在社交媒体上发布的一张真·草莓照片。就在前几天，The Information还在爆料称“草莓”将在未来两...

本文作者：李丹

来源：硬AI

美东时间10月1日周二，OpenAI举行了年度开发者大会DevDay，今年的大会并没有任何重大的产品发布，相比去年大会显得更低调，但OpenAI也为开发者派发了几个大“礼包”，对现有的人工智能（AI）工具和API套件做了改进。

本次OpenAI DevDay推出一系列新工具，主要包括四大创新：提示词缓存（Prompt Caching）、视觉微调（Vision Fine-Tuning）、实时API（Realtime API）、模型蒸馏（Model Distill ion），在降低模型成本、提高模型视觉理解水平、提升语音AI功能和小模型性能方面，给开发者带来福音。

有评论称，今年DevDay的重点是提高开发者的能力和展示开发者圈子的故事，这表明随着AI领域的竞争日益激烈，OpenAI的战略发生了转变。上述新工具突出表明，OpenAI的战略重点是：增强其开发者的生态系统，而不是直接在终端用户应用领域竞争。

有媒体提到，在DevDay活动前的记者会上，OpenAI的首席产品官Kevin Weil谈及最近OpenAI首席技术官Mira M i和首席研究官Bob McGrew离职，称他们离开不会影响公司发展，“我们不会放慢脚步”。

提示词缓存（Prompt Caching）可减少输入token成本多达50%

提示词缓存被视为本次DevDay发布的最重要更新。该功能旨在降低开发者的成本、减少延迟。

OpenAI引入的提示词缓存系统自动对模型最近处理的输入token提供50%的折扣，这可能会让经常重复使用上下文的App得到大量节省。如此大幅降低成本给企业和初创公司提供了探索新应用的重大机遇，因为这些应用以前由于费用高昂无法实现。

OpenAI 产品负责人 Olivier Godement称，两年前GPT-3大获成功，现在OpenAI已经将相关成本降低了将近1000倍。他举不出来其他任何一个两年内能将成本降低同样幅度的例子。

以下OpenAI的图表展示了，提示词缓存可以大幅降低应用AI模型的成本，相比各种GDP模型的非缓存token，缓存输入token的成本可以减少多达50%。

视觉微调（Vision Fine-Tuning）：视觉AI新前沿

OpenAI DevDay公布，OpenAI 的大语言模型（LLM） GPT-4o 引入了视觉微调。此功能让开发者能用图像和文本自定义模型的视觉理解功能。

这是被称为视觉AI新前沿的重大更新。它可能会对自动驾驶汽车、医学成像和视觉搜索功能等领域产生深远影响。

OpenAI 称，东南亚版“美团+滴滴” Grab 已经利用这项技术改进其地图服务。仅使用 100 个示例，Grab 就让车道计数的准确率提高了20%，限速标志定位率提高13%。

这种现实世界的App展示了视觉微调的可能性，即使用小批量的视觉训练数据，显著增强各行各业的AI服务。

实时 API（Realtime API）弥补对话式 AI 的

OpenAI DevDay发布了实时 API，目前处于公开 beta阶段。实时API 本质上简化了构建语音助手和其他对话式 AI 工具的过程，无需将多个模型拼接在一起进行转录、推理和文本到语音的转换。

这项新产品让开发人员能创建低延迟的多模态体验，尤其是在语音转语音App中。这意味着开发人员可以开始将 Ch GPT 的语音控件添加到App中。

为了说明该 API 的潜力，OpenAI 展示了 Wanderlust 的更新版本，它是一款在去年大会上展示过的旅行规划App。

借助实时 API，用户可以直接与新版App对话，进行自然对话来规划行程。该系统甚至允许用户在语句中间打断，模仿人类之间的对话。

旅行规划只是一个例子，实时 API 为各个行业的语音App开辟了广泛的可能性。无论是专攻客服、教育领域还是残障人士使用的无障碍工具，开发者现在都可以利用新的资源创造更直观、响应更快的AI驱动体验。

包括营养和健身指导App Healthify 和语言学习 Speak在内，一些App已经将先行一步，将实时API融合到自身产品中。

有评论称，实时API 的定价并不便宜，每分钟音频输入收费0.06 美元，每分钟音频输出收费0.24 美元，但对于希望创建基于语音App的开发人员来说，它仍然可以代表一个重要的价值主张。

模型蒸馏（Model Distill ion）让小模型也可拥有尖端模型功能

模型蒸馏被视为OpenAI此次变革性的新工具。这种集成的工作流程让开发人员能通过使用诸如GPT o1-preview 和 GPT-4o这类尖端模型的输出，对相对较小且经济实用的高校模型进行微调，从而提高更模型、如 GPT-4o mini的性能。

这种方法让小公司也可能利用与尖端模型类似的功能，并且无需承担使用这类模型的计算成本。它有助于化解 AI 行业长期以来在尖端、资源密集型系统与更易于访问但功能较弱的系统之间的鸿沟。

比如一家从事医疗技术的小型要为农村的诊所开发一种AI 驱动的诊断工具。使用模型蒸馏，该公司可以训练一个紧凑的模型，该模型可以捕捉大模型的大部分诊断能力，同时只需要在标准的笔记本电脑或平板电脑上运行。

因此，模型蒸馏可以让资源受限的环境也能享有复杂的 AI 功能，有可能提高医疗服务欠发达地区的医疗保健水平。

标签：模型 OpenAI 开发者

分享