"美国式禁忌2",中国德国商会:欧盟加征关税无法保护车企,美国东部港口大罢工持续3天后暂歇:资方同意涨薪62%
"美国式禁忌2",韩国在野党成员登上独岛:谴责政府“屈辱外交”,消息称华为HarmonyOS将推4.4版本,问界汽车超级桌面2.0功能已支持鸿蒙4.3.X及以上系统手机
"美国式禁忌2",国家统计局公布5月份分年龄组失业率数据
韩剧厨房中的激战2中文字幕
四房人人色
法国空乘2009满天星法版播放
厨房中的激战2电视剧
影院免费观看电视剧高清资源
青柠影院日本免费观看
新版金银瓶1-5普通话
美国式禁忌2:消息称华为HarmonyOS将推4.4版本,问界汽车超级桌面2.0功能已支持鸿蒙4.3.X及以上系统手机,“抢筹”中国资产!外资巨头美银证券发声!,美国强烈鼓励邀台湾地区参与世卫大会中方坚决反对
"美国式禁忌2", 转自:有新Newin 幸运的是,作为OpenAIo1模型研究团队三位核心技术人员NoamBrown(OpenAI研究科学家,专注于AI推理和强化学习)、HunterLightman(OpenAI高级工程师,主要研究AI在复杂问题上的推理能力)以及IlgeAkkaya(OpenAI研究员,特别关注AI在数学和逻辑推理方面的应用)也在近日与红杉美国合伙人SonyaHuang以及PatGrady展开了一场对谈。 NoamBrown强调,o1模型的一个核心突破在于延长推理时间带来的能力提升。通过增加推理时间,模型在解决复杂问题时表现出了自发的回溯和自我修正能力,这使得它在像数独和复杂逻辑等问题上表现尤为出色。通过这种“延时推理”,o1能更有效地应对高难度任务。 HunterLightman认为,o1模型不仅通过推理时间扩展了AI的能力,还为未来AI的发展开辟了新的方向。与之前依赖数据和计算能力扩展的AI模型相比,o1的推理时间扩展代表了一种全新的维度。这种方式有望在未来的模型版本(如o2和o3)中进一步扩展AI能力。 NoamBrown和HunterLightman承认,尽管o1在推理任务中表现出色,但它并非在所有任务上都优于其他AI模型。尤其在非STEM领域,模型的表现还有很大的改进空间。 以下为这次对话的主要内容,enjoy~ SonyaHuang: o1是OpenAI首次在推理时间计算上的重大尝试。我们很期待和团队讨论推理、思维链、推理时间缩放定律等话题。 Ilge、Hunter、Noam,感谢你们的到来,并祝贺你们将o1推向公众。我想先问一下,你们从一开始就确信这个项目会成功吗? NoamBrown: 我认为我们从一开始就相信这一方向有潜力,但实际走到今天的路径并不清晰。你看看o1,这并不是一夜之间的成果。实际上,这背后有多年研究,而其中很多研究并没有取得成效。 我认为OpenAI的领导层一直坚信这一方向必须有结果,并愿意在早期遇到挫折的情况下继续投资,这最终得到了回报。 HunterLightman: 我一开始没有像Noam那样有强烈的信心。我已经花了很长时间研究语言模型,试图让它们学会做数学和其他推理任务。研究的过程总是有起有落,有时有效果,有时没有。 但当我们发现这一方向开始奏效时,我经历了一个“啊哈”的时刻,那时我读了一些模型生成的输出,它们以不同的方式处理问题解决。这就是我信心确立的时刻。 我认为OpenAI整体上采取了一种非常实证、数据驱动的方式,当数据开始向你展示趋势并且变得有意义时,我们就会追随这些线索。而这也是我信心确立的时刻。 SonyaHuang: Ilge,你已经在OpenAI工作了很长时间,五年半了。你怎么看?你从一开始就相信这个方法会成功吗? IlgeAkkaya: 不,我加入后曾几次判断错误。我一开始以为技术是通向AGI的道路,所以我最初加入了机器人团队,认为AGI会出现在具身智能中。然而,事情并没有按预期发展。 在我工作的这段时间,ChatGPT 的出现无疑是个范式转变。我们能够向全世界展示一个通用接口,我很高兴我们现在有了一条可能的新的前进路径来推动这一推理范式。但对我来说,长时间里,这条路径并不明显。 PatGrady: 我知道你们出于很好的理由,不能公开过多的细节,但你们能否大致介绍一下它的工作原理? IlgeAkkaya: o1模型系列使用了强化学习,能够进行推理,或者你也可以称之为“思考”。它与我们过去使用的大型语言模型有本质上的不同。 我们已经看到它在很多不同的推理领域中都表现出良好的泛化能力,我们也在最近展示了这一点。所以我们对这个新模型家族带来的范式转变感到非常兴奋。 PatGrady: 对于那些不太熟悉当前语言模型技术的人来说,什么是推理?你能否简要定义一下推理,并解释为什么它很重要? NoamBrown: 一个简单的理解是,推理是针对那些思考更长时间有明显好处的问题的能力。你知道,人类有经典的系统1和系统2思维。 系统1是自动化的、直觉式的反应,系统2则是较慢的、更有流程驱动的反应。对于某些任务,延长思考时间并不会带来更多好处。 比如,如果我问你“不丹的首都是哪里?”,你可以花两年的时间思考,但这不会提高你的正确率。顺便说一句,不丹的首都是什么?其实我也不知道。不过,确实有一些问题,通过延长思考时间可以带来更高的准确性。 一个经典的例子是数独,你可以理论上尝试各种解法,并且正确解法非常容易识别。因此,只要有足够的时间,你最终会找到正确答案。 很多AI领域的研究者对推理有不同的定义,我不主张这是唯一的定义。每个人都有自己的看法,但我认为推理是那些通过考虑更多选项和思考更长时间可以获益的问题。 你可以把它理解为一个生成-验证的差距问题:生成一个正确的解法很难,但识别正确解法却相对简单。 我认为所有问题都在这个光谱上,比如数独这种验证比生成容易的问题,以及验证和生成同样困难的问题,比如不丹的首都叫什么。 SonyaHuang: 我想问一下关于AlphaGo和Noam的背景,你以前在扑克和其他游戏方面的研究有多大程度与o1的工作相关?它们之间有哪些相似和不同之处? NoamBrown: 我认为o1的一大亮点是它确实在思考时间增加的情况下表现更好。如果回顾过去的许多AI突破,AlphaGo是一个经典的例子。 它的一个显著特点是会花很长时间在每步行动前思考,可能需要30秒来决定下一步。如果让它瞬间做出决策,它其实比不上顶级的人类选手。因此,它的表现很大程度上依赖于这些额外的思考时间。 问题在于,这种额外的思考时间是依靠蒙特卡洛树搜索(MCTS)进行的,这是一种特定的推理方法,适用于围棋,但在我早期研究的扑克游戏中却行不通。因此,尽管神经网络部分(系统1的部分)是通用的,但当时存在的推理方法仍然是特定领域的。 o1的另一大亮点是它的推理方式非常通用,适用于许多不同的领域。我们已经看到了用户使用它的各种方式,也验证了这一点。 HunterLightman: 语言模型一直吸引我的地方是,它们的接口非常通用,可以适应各种问题。这次我们感到兴奋的是,我们认为我们有一种方法,可以在这种通用接口上做强化学习,并期待看到未来的可能性。 PatGrady: 你提到生成和验证之间的差距,这在不同问题上有所不同。那么在推理过程中,这种差距的处理方法是否是一致的,或者在不同的情况下有不同的方法? HunterLightman: 这次发布让我兴奋的地方之一是,o1能够交到那么多人手里,我们可以看到它在哪些问题上表现好,哪些问题上表现差。这是OpenAI的核心战略之一,我们通过迭代式的技术部署,观察世界如何与它互动,并不断改进我们的研究。 PatGrady: 在推特上,有什么用户使用o1的方式让你感到意外吗? IlgeAkkaya: 让我非常兴奋的一件事是,我看到很多医生和研究人员把这个模型当作头脑风暴的合作伙伴。他们在癌症研究领域工作多年,正在与模型讨论一些关于基因发现和基因疗法的想法。 虽然模型无法自行进行研究,但它可以成为人类的良好协作伙伴,帮助推动科学研究的进步。 SonyaHuang: Noam,我记得你曾发推说,深度强化学习(DeepRL)已经走出了“幻灭低谷”。你能详细解释一下你的意思吗? NoamBrown: 我觉得这一切可以追溯到Atari游戏,DeepMind在Atari上的深度强化学习(DRL)结果曾经非常热门。我当时正在攻读博士学位,大约在2015到2019年之间,DRL无疑是最热门的研究领域。 在某些方面,确实取得了大量研究成果,但也忽略了一些问题。其中一个被忽视的方面就是利用进行训练的力量,比如GPT的训练方式。在某种程度上,这非常令人惊讶。 看看AlphaGo,它无疑是深度强化学习领域的重大成就之一。尽管其中有RL(强化学习)步骤,但更重要的是,AlphaGo在这之前还进行了基于人类数据的学习,这才是让AlphaGo真正起飞的原因。 然后,研究界逐渐出现了一种观点,认为不依赖人类数据、从零开始学习才是“纯正”的方向。 这也导致了AlphaZero的出现,尽管它的表现比AlphaGo更好,但这个过程的转变忽视了像GPT这样的大规模数据训练的潜力,除了OpenAI之外,很少有人关注这个方向。 OpenAI在初期看到了这个方向的一些初步成果,并有决心加倍投入。所以,DRL确实经历了一段高峰期,随后随着 GPT-3等大模型的成功,DRL的热度有所下降,许多人对它失去了信心。不过,随着o1的出现,我们看到了DRL在与其他元素结合时仍然具有强大的潜力。 SonyaHuang: 我认为很多DRL的成果是在相对明确的设定下产生的。游戏中的o1是首次在更广泛的、无界环境中使用DRL的案例之一吗?这样理解对吗? NoamBrown: 是的,我觉得这是一个很好的观点。许多DRL的亮点成果确实非常酷,但它们的适用范围也非常狭窄。虽然我们确实看到了一些相当有用且通用的DRL成果,但没有什么可以与 GPT-4的影响力相比。因此,我认为在新的范式下,DRL未来将达到类似的影响力水平。 SonyaHuang: 我还记得AlphaGo的比赛结果,尤其是在一些锦标赛中的第37手,那个动作震惊了所有人。 你在o1的研究中是否见到过类似的时刻,模型给出了一个让所有人意外的答案,但实际上是对的,甚至比人类的想法更好?你们是否有过那样的时刻,还是认为可能要等到o2或o3? HunterLightman: 我想起了一个例子,我们在为IOI(国际信息学奥林匹克竞赛)做准备时,把模型投入到解决问题的过程中。有一个问题,o1执意要用一种奇怪的方法去解决,具体细节我不太清楚,我的同事们,他们更擅长竞赛编程,试图弄清楚为什么模型会这样做。 我认为这并不是“天才之作”的那种时刻,而是模型不知道正确的解决方法,于是反复尝试,直到找到另一个解决方案。它确实解决了问题,只是用了一个看起来很奇怪的方法。我记得这是一个有趣的例子,在编程竞赛的结果中,模型确实以一种不同于人类的方式思考问题。 IlgeAkkaya: 我看到模型解决了一些几何问题,它的思考方式让我感到很惊讶。比如,你让模型计算一个球体上的点,然后询问某个事件发生的概率,模型会说:“让我们先来想象这个场景,放置这些点,然后从这个角度思考。” 这种用语言进行可视化的方式真的让我吃惊,就像我作为人类会做的那样,而看到o1也能做到这一点,真的让我感到意外。 SonyaHuang: 非常有趣。这不仅是人类可以理解的,还能扩展我们对问题的思考方式,而不仅仅是某种难以理解的机器语言。这真的非常吸引人。 HunterLightman: 是的,我确实认为o1的结果中最酷的一点是,它的思维链是可以被人类解释的,这使我们能够理解模型的思维过程。 PatGrady: 在研究过程中有没有出现那种“啊哈”的时刻?Hunter,你提到一开始你并不确信这个方向会成功,有没有某个时刻让你突然意识到:“天啊,这个方向真的有效!” HunterLightman: 我在OpenAI已经工作了大约两年半的时间,大部分时间都在努力让模型更好地解决数学问题。我们为此做了很多工作,构建了各种定制系统。 在o1的研究过程中,有一次我们训练了一个新模型,应用了一些修复和修改,结果它在数学评估中的得分比我们之前所有的尝试都高,甚至超过了我们设计的定制系统。 我们查看了思维链的变化,发现它们表现出了不同的特征。特别是当模型犯错时,它会说:“等等,这不对,我需要退一步,重新找出正确的方向。”我们称这种行为为“回退”(backtracking)。 我已经等待很长时间想看到模型能够回退的例子,当我看到这个得分和思维链时,我意识到这真的有潜力,我需要更新我的看法。这就是我信心确立的时刻。 NoamBrown: 我觉得对我来说也是类似的故事。大概是在同一时间,我加入时的想法是,像ChatGPT这样的模型并没有真正“思考”才作出回应,它的反应非常快速。 而在AI领域的游戏中,能够花更多时间思考可以获得更好的结果。所以我一直在思考,如何将这一点引入到语言模型中。 这听起来简单,但实际上如何实现是个挑战。我们讨论了很多如何让模型拥有反思能力,如何在犯错时回退或尝试不同的方法。 最终,我们决定尝试一个基本的方案,就是让AI思考更长时间。结果我们发现,一旦AI能有更多的思考时间,它几乎是自发地发展出这些能力,包括回退和自我修正。 这些都是我们想让模型实现的,而现在通过这样一个简单且可扩展的方式就实现了。 NoamBrown: 这对我来说是一个关键时刻,那时我意识到我们可以进一步推动这个方向,而且方向非常明确。 HunterLightman: 我一直在理解Noam对“推理计算”(convictioncompute)的信心有多强大。我记得他刚加入时,我们的很多一对一对话都围绕着测试时计算的力量展开。 在项目进行的多个阶段,Noam都会说:“为什么不让模型思考更长时间?”然后我们就这么做了,结果模型表现得更好。他看着我们时的表情有点好笑,仿佛在说:“为什么我们之前没这么做?” SonyaHuang: 我们在你们的邮件中注意到,o1在STEM领域表现得非常好,明显优于你们之前的模型。对此有没有一个大致的解释?为什么会这样? NoamBrown: 我之前提到过,有些任务,比如推理任务,验证一个答案比生成一个答案要容易。STEM领域的问题往往属于难以推理的问题类型。所以这就是我们看到o1在STEM学科表现更好的一个重要原因。 SonyaHuang: 明白。我想补充一个问题,我们在你们发布的研究论文中看到,o1通过了你们的研究工程师面试,而且通过率相当高。对此你怎么看?这是否意味着未来OpenAI会雇佣o1来代替人类工程师? HunterLightman: 我认为我们还没有达到那个水平。我觉得还有更多工作要做。 SonyaHuang: 不过要达到100%还是很难的,对吧? HunterLightman: 也许我们需要更好的面试方法。但至少在我看来,o1已经比之前的模型更像一个编程伙伴。我认为它已经在我们的代码库中提交了几次代码变更。 从某种意义上讲,它确实像一个软件工程师,因为软件工程也是一个受益于长时间推理的STEM领域。 我认为当前模型在进行推理时只思考了几分钟,但如果我们继续扩展这个趋势,让o1思考更长时间,它可能会完成更多类似的任务。 NoamBrown: 你可以知道我们实现了AGI的那一天就是当我们下架所有招聘信息,而公司状况要么非常好,要么非常差的时候。 SonyaHuang: 你认为要让o1在人文学科上表现出色需要做些什么?你认为推理、逻辑和STEM领域的优势会随着推理时间的扩展自然延伸到人文学科吗?还是说会有其他因素? NoamBrown: 如你所说,我们发布了模型,也很好奇它擅长什么、不擅长什么,用户会用它来做什么。我认为模型的原始智能和它在实际任务中的有用性之间仍然存在差距。 在某些方面它非常有用,但在更多方面它可以更有用。我认为我们还有很多迭代的空间,来解锁这种更广泛的通用性。 PatGrady: 那么我很好奇,OpenAI内部有没有关于模型能力与实际应用需求之间差距的哲学?你们是否有一个明确的思考过程来决定哪些工作应该由模型完成,哪些工作应留给围绕API的生态系统来解决? NoamBrown: 在我加入之前,我就听说OpenAI非常专注于AGI,而我当时对这一点还有些怀疑。基本上,我刚开始工作的第一天,公司召开了一次全员会议,Sam站在大家面前,明确表示AGI是我们的首要目标。 因此,最明确的答案就是AGI是我们的终极目标,没有某个单一的应用是我们的优先事项,除了是否能够使用AGI。 PatGrady: 你们对AGI有明确的定义吗? NoamBrown: 每个人都有自己的定义,对吧?这也是为什么这个问题很有趣。 HunterLightman: 我不知道我是否有一个明确的定义。我只是觉得这可能与AI系统能够完成的经济上有价值的工作比例有关。 我认为在未来几年内,这个比例会迅速上升。我不确定具体会如何发展,但这可能是那种“当你感受到时你就知道”的情况。 我们可能会不断调整标准,直到有一天我们与这些AI同事一起工作,而它们完成了我们现在做的许多工作,而我们则在做不同的工作。整个工作生态系统都会发生变化。 PatGrady: 你的一位同事曾很好地表达了推理在通往AGI的过程中重要性。他的大意是:任何工作都可能遇到障碍,而帮助你克服这些障碍的正是你的推理能力。 我认为这是一个不错的连接,说明了推理为何重要以及与AGI目标的关系。你们认为这是理解推理为何重要的最佳方式吗?还是有其他的框架可以帮助我们理解推理? HunterLightman: 我认为这是一个有待确认的问题。因为在开发这些AI系统和模型的过程中,我们看到了它们的各种表现和不足。 我们在开发、评估这些系统时学到了很多新东西,并试图了解它们的能力。例如,一些想到的事情是战略规划、头脑风暴等。 PatGrady: 如果要让AI像优秀的产品经理一样好,它需要大量的创意和对用户需求的洞察。这算是推理吗?还是说这是一种与推理不同的创造力,需要以不同的方式处理? 当你开始将这些计划转化为行动时,你还需要进行战略规划,考虑如何推动组织达成目标,这算是推理吗? HunterLightman: 也许部分是推理,但也许部分是其他东西。最终,我们可能会觉得这些都是推理,或者我们会发明一个新词,描述需要采取的新步骤。 IlgeAkkaya: 我不确定我们能将这个推理问题推进到什么程度。每当我思考这个广泛的推理问题时,数学领域的例子总是很有帮助。 我们花了很多时间阅读模型在解数学问题时的思维过程。你能看到,当它遇到障碍时,它会退回去,尝试另一个方法。 这种思维过程让我觉得,也许它能推广到数学之外的领域,这给了我一些希望。虽然我不知道最终答案是什么,但希望如此吧。 HunterLightman: 让我感到困惑的是,o1已经在数学上比我更厉害了,但它在软件工程上却不如我。所以这里存在某种不匹配。 PatGrady: 看来还有很多工作要做。 HunterLightman: 是的,还有一些事情要做。如果我的整个工作只是解Amy问题和参加高中数学竞赛,我可能早就失业了。但现在我仍然有工作可做。 PatGrady: 既然你提到了“思维链”,即观察背后的推理过程。我有个问题,也许你们无法回答,但就当是有趣的讨论吧。 在你们发布o1的博客中,你们解释了为什么要隐藏“思维链”,并说部分原因是出于竞争考虑。我好奇,这是否是一个有争议的决定?因为我可以想象,这种决定很有逻辑,但也可以想象你们可能选择公开它。能否谈谈这是一个有争议的决定吗? NoamBrown: 我不认为这是有争议的。与不分享前沿模型的权重出于类似的原因,分享模型的思维过程也存在很多风险。我认为这是一个类似的决策。 SonyaHuang: 能不能给外行解释一下,什么是“思维链”?可以举个例子吗? IlgeAkkaya: 例如,如果有人问你解决一个积分问题,大多数人会需要一张纸和一支笔,然后一步步推导出从复杂方程到最终答案的过程。 这个过程可能会得到一个答案,比如1,但如何得出这个答案?这就是数学领域中的“思维链”。 SonyaHuang: 让我们谈谈未来的路径,推理时间的扩展定律。在你们发布的研究中,这是我认为最重要的图表。这似乎是一个具有深远意义的结果,类似于预训练中的扩展定律。你同意这种看法吗?这对领域的影响会是什么? NoamBrown: 我认为它确实具有深远意义。在我们准备发布o1时,我一直在想人们是否会认识到它的重要性。虽然我们提到了这一点,但这是个比较微妙的点。 我真的很惊讶和感激,看到这么多人理解了这一点的意义。一直以来,人们对AI可能遇到瓶颈或停滞的担忧很多,尤其是预训练变得越来越昂贵,还有关于是否有足够数据的问题。 o1,特别是o1Preview,传达的主要信息并不是它今天的能力,而是它对未来的意义。我们能够在扩展中发现一个迄今未被充分开发的维度,我认为这是一个重大突破,这意味着天花板比许多人想象的要高得多。 SonyaHuang: 如果让模型思考数小时、数月甚至数年,会发生什么? HunterLightman: 我们还没有让o1运行那么久,所以还不知道。 PatGrady: 现在有个后台任务在运行吗?可能正在思考如何解决世界和平问题。 HunterLightman: 有一个类似的故事叫《最后的问题》,讲的是一个巨大的计算机AI被问到如何逆转熵,它回答:“我需要更长的时间思考。” 故事接着讲述了,10年后,它还在思考,100年后,1000年后,甚至一万年后,它还在思考。 IlgeAkkaya: “目前还没有足够的信息来提供有意义的答案。”类似于这样。 SonyaHuang: 你对未来有猜测吗?你觉得当模型的推理时间越来越长,它的智力极限会达到什么程度?目前我看到的报告是,它的智商大约是120,那它会无限提高吗? HunterLightman: 一个重要的点是,120智商只是某个测试中的分数,并不意味着它在所有领域都有120的推理能力。 实际上,我们也谈到,它在某些方面的表现不如40分,比如在创造性写作等方面。所以,推测这个模型的能力是很复杂的。 NoamBrown: 这是一个重要的点。我们谈论这些基准测试时,强调了GPQA,这是一个博士生会遇到的问题集合,通常由博士生来解答,但AI现在在这个基准测试中超过了很多博士生。 这并不意味着它在所有方面都比博士生聪明。博士生和人类能够做很多AI无法做到的事情。所以我们在看这些测试结果时,应该理解它只是测量了某些特定的能力,通常是人类智力的代理,但对AI来说,意义有所不同。 HunterLightman: 也许可以这样说,我希望看到的是,当我们让模型在它已经擅长的领域思考更长时间时,它会变得更好。 我的一个“推特时刻”是看到我以前的数学教授发推,他对o1印象深刻,因为他给了它一个之前从未被AI解过的证明,而它竟然完成了。 这让我感觉我们正处于某个有趣的转折点,模型有望成为一个有用的数学研究工具。如果它能够帮助完成一些小的引理和证明,那将是一个真正的突破。我希望通过让它思考更长时间,我们能够在这方面取得更大的进展。 要预测它在当前不擅长的领域会如何表现,这对我来说很难。我们如何让它在这些方面变得更好?未来会如何发展? 但是我们可以以它现在擅长的领域为基础,假设如果我们让它在这些领域思考更久,它将成为数学研究的好助手、软件工程的好帮手。这样我们就可以开始预测未来的发展方向。 PatGrady: 关于扩展的瓶颈问题。对于预训练来说,很明显你需要大量的计算能力、大量的数据,这些都需要大量的资金。所以很容易理解预训练在扩展方面的瓶颈。那么,推理时间的扩展会有什么限制呢? NoamBrown: 当GPT-2和 GPT-3发布时,很明显只要投入更多的数据和GPU,它们的性能就会显著提升。 但即便如此,从GPT-2到 GPT-3再到 GPT-4之间还是花了好几年的时间。这不仅仅是一个简单的想法,还有很多工作要做,才能把它扩展到一个非常大的规模。 我认为这里也面临类似的挑战,虽然这个想法很简单,但要真正扩展它,需要投入大量的工作。所以我认为这是挑战所在。 HunterLightman: 是的,我认为对于那些学术背景较强的研究人员来说,加入OpenAI后可能会发现令人惊讶的事情之一是,很多问题最终并不是研究问题,而是工程问题。 构建大规模系统、训练大规模系统,以及运行那些早已发明的算法,或者前所未有的系统,都是非常困难的。这需要大量艰难的工程工作,才能让这些东西扩展起来。 IlgeAkkaya: 此外,我们还需要知道该在什么标准上测试模型。我们确实有标准的评估基准,但可能还有一些我们尚未测试到的领域。所以我们也在寻找这些领域,在这些地方我们可以投入更多的计算资源,获得更好的测试结果。 SonyaHuang: 我一直很难理解的是,当你给模型提供接近无限的计算资源时,会发生什么。作为一个人类,即便是TerrenceTao这样的大脑天才,也会受到生理限制。 而你可以无限增加推理时间的计算资源。这是否意味着,所有的数学定理最终都可以通过这种方法解出来?或者你认为会有某种极限? HunterLightman: 无限计算资源是很大的计算能力。 SonyaHuang: 接近无限。 HunterLightman: 这让我想起了Asimov的故事,如果你让它思考一万年,也许能解决某些问题。但说实话,我们还不知道这种扩展对于解决真正难的数学定理意味着什么。可能真的需要让它思考一千年,才能解决一些未解的核心数学问题。 NoamBrown: 是的,我的意思是,如果你让它思考足够长的时间,理论上你可以把一切形式化,像Lean那样,把所有可能的证明都遍历一遍,最终你会发现定理。 HunterLightman: 我们已经有算法可以解决任何数学问题,也许这就是你要说的。 NoamBrown: 是的,只要有无限的时间,你可以做很多事情。当然,随着时间的延长,回报会逐渐递减,但的确可以取得一些进展。 SonyaHuang: 非常公平。你认为关于o1最大的误解是什么? NoamBrown: 我觉得一个大误解是,当项目名称“草莓”(strawberry)泄露时,人们以为这是因为网络上流传的一个问题:“草莓有多少小时?”其实并不是这样。 当我们看到这个问题时,我们还很担心是不是有内部信息泄露。但据我们所知,这只是个巧合,我们的项目名字碰巧叫“草莓”,而那个问题也恰好流行起来了。 HunterLightman: 据我所知,之所以叫“草莓”,只是因为当时有人需要想个代号,而屋里有个人正好在吃一盒草莓,事情就这样定了。 PatGrady: 相比之下,这个名字比“休斯顿”要更容易让人联想。 NoamBrown: 我觉得我对它被理解得这么好感到印象深刻。我们在发布时确实不确定大家会怎么接受。内部有过很大的争论:人们会不会失望,因为它并不能在所有方面都更好?还是他们会对它惊人的数学表现感到印象深刻? 我们真正想传达的并不是这个模型目前的能力,而是它未来的发展方向。我不确定大家是否能理解这一点,但似乎很多人确实领会了,所以我对此非常满意。 SonyaHuang: 关于o1,你觉得有没有什么批评是合理的? HunterLightman: 毫无疑问,它并不能在所有方面表现得更好。它是一个有点古怪的模型,很多人在互联网上发现了不同的提示方式来更好地使用它。 仍然有很多怪异的边缘案例,我很期待看到生态系统如何基于我们的平台开发出更智能的产品和应用。 HunterLightman: 我觉得我们还处于非常早期的阶段。有点像一年前人们开始真正搞清楚如何使用 GPT-4及其语言模型程序,进而使得软件工程工具变得更智能。我希望我们会看到类似的进展,人们会基于o1进行创新。 PatGrady: 说到这一点,有一件我们还没讨论的事情,就是o1Mini。我听到很多人对o1Mini非常兴奋,因为大家普遍对小模型感兴趣。 如果你能够保留推理能力并提取部分世界知识,那么这是一件非常不错的事情。我很好奇,你们对o1Mini和它代表的方向有多兴奋? IlgeAkkaya: 这个模型非常令人兴奋。对我们研究人员来说,如果模型运行得快,它的用途就更广泛。所以我们也很喜欢它。它们有不同的用途。 我们很高兴有一个更便宜、更快的版本,还有一个更重、更慢的版本。它们在不同的场景中都非常有用。所以,我们对取得的这种平衡感到非常兴奋。 HunterLightman: 我喜欢这种表述,这强调了进展的重要性。o1Mini让我们能够更快地迭代,希望对广大的用户生态系统来说,它也能让他们更快地迭代。所以它至少在这一点上是非常有用且令人兴奋的产物。 SonyaHuang: 对于那些在AI领域创业的创始人们来说,他们应该如何考虑何时使用 GPT-4,何时使用o1?是否需要他们从事STEM、编程、数学相关的工作才能使用o1?他们应该怎么思考这个问题? HunterLightman: 我希望他们能帮我们找到答案。 NoamBrown: 我们发布o1Preview的动机之一是想看看人们最终会用它做什么,怎么使用它。事实上,我们还讨论过是否值得发布o1Preview。 但最终发布的原因之一就是为了让大家尽早接触到它,看看它在什么场景下最有用,在哪些场景下不太合适,以及如何改进它以满足用户的需求。 SonyaHuang: 你觉得人们目前最容易低估o1的是什么? HunterLightman: 我觉得这证明了我们给模型命名的能力有所提升,至少我们没叫它“ GPT-4.5思维模式”。 SonyaHuang: 不过,我觉得“草莓”这个名字挺可爱的。 PatGrady: 我觉得“思维模式”也挺有意思。你们对o2或o3最兴奋的是什么? IlgeAkkaya: 我们还没有达到没想法的地步,所以我很期待接下来的进展。我们会继续研究,最期待的是获得反馈。作为研究人员,我们显然在自己擅长的领域有一定的偏见,但通过产品的使用,我们将收到来自各个不同领域的反馈。也许我们会发现一些超出我们想象的领域值得深入推进。海量资讯、精准解读,尽在新浪财经APP
"美国式禁忌2",界面新闻记者|查沁君2024年高考临近,网红张雪峰再次陷入舆论漩涡。起因是张雪峰公司峰学蔚来提供的近两万元的高考志愿填报--**--图片来源:界面新闻匡达 界面新闻记者|查沁君 2024年高考临近,网红张雪峰再次陷入舆论漩涡。 起因是张雪峰公司峰学蔚来提供的近两万元的高考志愿填报课程(下称高报课程)被抢购一空,不少家长质疑这或是饥饿营销,有“割韭菜”之嫌。张雪峰团队工作人员在回应大众网时表示,师资只能匹配有限名额。 6月4日,界面教育检索发现,峰学蔚来APP目前上架的高报类课程产品仅两款,一是由张雪峰本人录制的视频录播课,含填报技巧、专业介绍、院校规划三方面内容;二是由峰学蔚来合伙人武亮提供的热门大类专业细分讲解,价格分别为599元、99元。 进阶版高报服务Pro的本轮名额显示已售罄。 据该公司此前上架的高报产品来看,除了599元的张雪峰录播课,还有客单价更高的梦想卡和圆梦卡。购买时间不同,二者价格也有所差异,最为紧迫的2024届服务价格分别为11999元、17999元。 “一定要早买,同样的项目,在高二购买时8999元,高三9999元,高三下学期就要11999。”张雪峰团队的高考志愿规划师在社媒上表示,“甚至有初三的家长已经抢购好了。” 张雪峰在此前的直播中也声称:“不要期待在直播间用一个免费的连麦,去完成一个正常收费在一万块钱左右的一对一升学规划。” 家长对此的态度两极分化,一些人认为,张雪峰在制造焦虑、“披着真诚的外衣割韭菜”,其讲授的绝大部分信息都是公开的,赚的只是信息差的生意。 而另一部分人则认为,网上信息鱼龙混杂参差不齐,如何筛选真正有用的信息更为复杂艰巨,换个角度看,花两万避免孩子入错行也是值得的。 “一对一较高的能达到八、九万。”教育学者梅金锁告诉界面教育,但这都是一种宣传噱头,实际成交价应该不会这么高。主流价格约在五千至一万出头。 尽管价格不便宜且不支持退款,但仍有不少人甘愿买单,其中大部分是循着张雪峰的名气去的。 毕业于郑州大学的张雪峰毕业后开始做考研辅导。2016年6月凭借《七分钟解读34所985高校》走红网络,曾参与多档综艺,出版一系列高考志愿和考研书籍。 2021年,北漂14年的张雪峰正式告别北京,并在苏州成立峰学蔚来公司。他是绝对的控股人,持股比例高达75%。工商信息显示,峰学蔚来参保人数由去年六月的24人增长至如今的73人。 近两年来,活跃在各大短视频平台的张雪峰,也常因言论引发争议,例如调侃西南大学以及“文科专业是服务业”等。大厂都在卷996的同时,他却扬言峰学蔚来“上四休三”。 争议汇聚成的流量,最后转化成为实际的商业价值,据蓝鲸财经报道,坐拥全网4000多万粉丝,张雪峰视频广告报价25万元起,线下直播报价40万/小时。 在高考志愿填报行业,张雪峰几乎是唯一一个靠个人名气来支撑公司业务的大IP。除此之外的早期入局者,诸如优志愿、掌上高考、赢鼎教育、百年育才等老玩家,还是靠长期沉淀的数据建立壁垒。 一批互联网巨头也瞄准了这块蛋糕。阿里巴巴旗下夸克、百度、网易有道、知乎近年来纷纷推出高考志愿填报服务,试图用AI智能化在这个传统赛道提升自己的竞争力。 据艾媒咨询去年的数据预测,2023年中国高考志愿填报市场付费规模将达9.5亿元,而2016年仅为1.3亿元。天眼查数据显示,八成相关企业成立于近五年内,仅2.8%成立10年以上。 紧俏的志愿填报服务背后是持续增长的高考大军。自1977年恢复高考以来,今年中国高考人数首次突破1300万大关,1342万人将在同一条高考独木桥上竞争,其中的复读生约413万,而本科招生名额只有约450万个,本科录取率大约在33%。 对高考生而言,即使上岸也无法掉以轻心。按照老话说的“三分考,七分报”、“考得好,不如报得巧”,尤其是在新高考改革的影响下,充满信息差的志愿填报是第二道关卡。 国内高考志愿填报目前主要有四种模式:平行志愿、顺序志愿、院校专业组、专业(类)+学校。后两种志愿模式主要在新高考改革的省份实行。 其中“院校专业组”模式仍以院校为主要考虑对象,只是高校将所有专业分为几个大类(组),存在专业组内被动调剂的风险;“专业+院校”模式虽不会出现志愿调剂,但可能导致有的高校热门专业招生分数较高,另一些专业则较低。 今年,第四批高考综合改革省份——吉林、黑龙江、安徽、江西、广西、贵州、甘肃,七省将首次面临“3+1+2”的新高考模式,即语文、数学、外语3门全国统考科目;“1”为首选科目,考生从物理、历史2门科目中自主选择1门;“2”为再选科目,考生从思想政治、地理、化学、生物学4门科目中自主选择2门。 填报规则变灵活背后,考生面临的一个巨大挑战是,考生需要填报志愿的数量剧增,甚至多达数十、上百个志愿。 夸克相关业务负责人此前在接受界面教育采访时曾提到,以前考生基本填报六个志愿左右,而新高考模式采取的“3+1+2”,如果1是必选,有一种填报策略,若1不必选,又有另外一个填报策略。不同的省份采取不同专业组的形式,在专业组的设计上,高校又会有非常大的差异。 另一方面,很多省份的本科批次已经合并。网易有道助理副总裁蒋叶光曾告诉界面教育:“从以前的本科一批、二批合并为同一批次,考生和家长须详细了解大量院校,要求很高,难度很大,经常出现选择失误的情况。” 蒋叶光认为,近两年新高考改革启动之后,高考志愿填报已逐步进入平稳期。因为实行新高考改革的省份和地区,有了往年志愿填报数据作为参照。 还有业内人士向界面教育表示,高考人数还有10年以上的增长周期,高考志愿填报仍是刚需。此外,国际环境和行业变化也为专业和学校选择带来难度。 焦虑之下,行业乱象逐渐出现。有些打着“保过托底”、“冲进理想学校”、“帮忙占位”,“不保过不收费”等旗号的高考报考服务机构收割家长。 对此,梅金锁告诉界面教育:“所谓的保底、帮忙占位,更多是未来引起学生家长的关注,有点强行去建立一种信任关系,反而是欲速则不达。” 在他看来,这些机构提供的服务就是对于政策的分析解读,以及学生个人的情况和目前高校在当地招生情况之间的关系匹配。而且咨询服务也不应该集中在高考结束后的这一小段时间,应该把这种服务延伸到学生高中、甚至初中的每个阶段。
"美国式禁忌2",
作者:是芳蕙
华生发文!
"美国式禁忌2",中国德国商会:欧盟加征关税无法保护车企,智界R7、问界M9带飞!鸿蒙智行国庆3天大定12000台,特斯拉算力水平等于国内车企总和?“转型”AI公司算力、算法成未来,微博观影团《一雪前耻》北京首映免费抢票,跨境电商Shein推进伦敦IPO:消息称创始人许仰天将赴美会见潜在投资者
"美国式禁忌2",梅赛德斯-奔驰:欧盟征收反补贴税是一个错误可能会导致深远的负面结果
"美国式禁忌2",
总监制:苌雁梅
监 制:昂巍然
主 编:帛乙黛
编 审:揭勋涛
(文章未经授权不得转载。)