看了今天OpenAI的新品发布直播,我感觉被奥特曼耍了

直击大奖 2024-12-06 浏览(15) 评论(0)
- N +

  来源:知危

  大家好,这里是知危编辑部,看完刚刚结束的 OpenAI 新品发布直播,我们的心里产生了巨大的疑惑:

看了今天OpenAI的新品发布直播,我感觉被奥特曼耍了

  就这?就这?就这???

  昨天,OpenAI 的 CEO 奥特曼高调宣布了 OpenAI 将会从今天开始开启一个为期 12 天的开放日活动,宣称接下来每个工作日都会有一次直播,内容会包括新品发布或演示、一些大型活动和一些 “ 圣诞礼物 ”。

  自打 9 月份发布了 o1 模型之后, OpenAI 憋了快一个季度没有新的大动作了,本来以为是要 “ 连开七天春晚 ” 的节奏,编辑部已经做好 “ 连续熬夜 12 天挑战 ” 的准备。

  结果,刚刚结束的本轮活动第一场直播,15 分钟就草草收场了,可以说是OpenAI 过往直播发布会里最无聊的一集,有一种被奥特曼耍了的感觉。。。

  这就是 12 天超长活动的强度吗?也太低了吧???

  好了,发完牢骚,还是跟大家介绍一下这场发布会的内容,虽然短,但也还是有一定有效信息。

  首先,o1 完全体模型正式版上线,同时还推出了一个 o1 Pro 模型并且相应推出了 ChatGPT Pro 订阅以及高级语音功能,相较于之前 Plus 订阅 20 美元每月的价格,Pro 订阅高达 200 美元每月,不过可以不限次使用 o1 Pro 模型和高级语音功能,也算是量大管饱了。

  而在模型效果上,官方纸面数据其实并没有特别大的飞跃性提升。。。

  为什么这么说呢,因为根据官方给出的跑分数据,o1 正式版模型的能力仅在数学和编程方面有较大的提升,但在博士级别问题的提升上非常小,新推出的 o1 Pro 版本也仅在各方面比 o1 正式版模型提高了一点点。

  要知道,o1 模型发布时主打的就是能在博士级别的回答中有出色表现,结果正式版和 Pro 版在这方面相比预览版基本没有什么提升,也是有些让人期望落空的。

  知危编辑部之前找过清华、北大、南京大学的三个博士测试评价过 o1 预览版模型,三位博士表示 o1 确实在思维和知识储备上达到了博士的水准,但无法对课题进行探索和提供更深的研究思路,所以并没有真正达到 “ 做学术 ” 的水平。

  现在是半夜我们没办法联系之前的博士进行测试,不过从官方公布的仅仅 5 分的提高上来看,估计效果体感应该不会有什么较大区别,数据是骗不了人的。

  不过,虽然模型的回答能力提升不多,但是模型的体验还是提升很大的,o1 正式版模型的重大错误犯错率比 o1 预览模板少了约 34%,同时回答速度提高了约 50% 。

  直播现场对比提问了 “ 列出二世纪的罗马皇帝,包括他们的时期和成就 ” 这个问题,o1 正式版给出回答用时仅有 14 秒,比 o1 预览版的 33 秒快了近 20 秒,体感差距还是很大的。

  而在回答的可靠性上,为了更明显的对比,OpenAI 采用了 “ 4/4 可靠性 ” 测试,具体来讲就是:仅当模型在四次问答中四次都能够正确回答问题,才被认为是解决了该问题。

  在 “ 4/4 可靠性 ” 测试的评分上来看,o1 正式版在各个领域都比预览版有显著的可靠性提高,同时 Pro 版比正式版也有较大提高。

  除了体验上的提升,还有交互上的提升,o1 正式版模型现在支持多模态输入了,你可以通过图+文字的形式向模型进行提问。

  在直播现场,OpenAI 团队画了一张 “ 太空数据中心 ” 草图,并让 o1 模型回答图中设施给 GPU 散热的散热器面积理论上应该需要多大,并且回答是时要考虑到 “ 如何处理太阳和深空的影响?” 以及 “ 热力学第一定律在其中如何发挥作用?” 这两个问题。

  o1 仅用 10 秒就回答了这个问题,他非常聪明的捕捉到了图中的 1GW 的输入功率元素,这是一个关键信息,同时指出了系统只能通过热辐射散热。

  与此同时,工作人员在提问时故意规避了一个信息,那就是整个系统的正常工作温度应该是多少,但 o1 模型自己聪明的定义了系统应该在 300K 也就是 27 摄氏度的环境下工作,进而开始估算散热板所需要的面积。

  图中回答的大致翻译:所需的散热器面积对散热器的平衡温度高度敏感。较低的散热器温度意味着每单位面积的辐射量减少,因此需要更大的面积。而较高的散热器温度则可以减少所需面积,但可能增加工程复杂性(因为需要使用能够承受更高温度且仍保持高辐射率的材料)。

  为了说明问题,我们选择一个相对适中的散热器温度,例如 T = 300 K(约27°C),这是电子设备或冷却循环系统温度的一个合理上限。这将为我们提供一个基准值。在计算面积下限时,我们假设没有寄生热负荷,并且系统处于理想条件。

  (注:如果允许系统运行在更高温度,所需面积会减少。我们将在 300 K 下进行一个示例计算,并说明温度变化如何影响面积需求。)

  整体来说,这次发布的东西虽然没有大家期望中的那么好,大家期望的 Sora 正式版、GPT-5、AI 搜索浏览器等产品都没有出现,但好在正式版 o1 和 o1 Pro 也勉强说得过去。

  不知都后面剩下的 11 场直播内容会不会覆盖到大家期望的东西,搞不好 OpenAI 想压轴在临近圣诞节的时候给大家来个圣诞惊喜也没准~

  哦,对了还有一件事情漏掉了,那就是因为 o1 Pro 模型的思考深度比 o1 要高,耗时会更长,所以为了用户体验,OpenAI 给模型加入了一个回答进度条,这么做可以非常有效的缓解用户在等待回答时候的焦虑。

  (转自:知危)

标签: