"青柠影院免费观看高清电视剧",微博观影团《小孩不笨3》北京首映免费抢票,以军称在黎南部地面行动中打死超400名真主党成员
"青柠影院免费观看高清电视剧",X平台称缴清罚款巴西最高法院回“转错账户”,默克尔称尽力阻止俄乌发生冲突乌高官不满:找借口
"青柠影院免费观看高清电视剧",《星空》DLCM站玩家评分6.0:极端评价揭示游戏两极分化
灭火宝贝2010美版策驰
小小水蜜桃在线观看高清
艳母动画艳母动画
小小水蜜桃在线观看免费
女生的小坤坤长啥
网站你懂我意思正能量
成全视频高清免费观看电视剧
青柠影院免费观看高清电视剧:伊朗石油部长:伊朗不担心敌人制造危机,9月安卓手机好评榜:OPPOFindN3夺冠唯一超99%,普京载金正恩在平壤街头兜风
"青柠影院免费观看高清电视剧", 今天(18日),交通运输部发布《2023年交通运输行业发展统计公报》(以下简称《统计公报》),2023年,我国平均每天完成交通基础设施投资107亿元,创历史新高。 2023年我国不断加强交通基础设施建设:交通固定资产投资规模连续7年保持在3万亿元以上,2023年达到3.9万亿元,平均每天完成交通固定资产投资107亿元,创历史新高。综合交通网总里程超过600万公里,已建成全球最大的高速铁路网、高速公路网、邮政快递网和世界级港口群,航空航海通达全球。 去年我国交通基础设施网络结构持续优化:全年新开通高铁2776公里,增加高速公路里程6394公里,增加万吨级泊位127个,货物吞吐量超过亿吨的港口达到46个,航空运输机场达到259座,城市轨道交通线网运营里程增加604公里。农村公路建设投资连续7年保持在4000亿元以上规模,全年新改建农村公路里程达18.8万公里。年末农村公路里程459.86万公里。全国建制村实现全部通邮。 运输服务能力持续提升 在今天交通运输部发布的《2023年交通运输行业发展统计公报》里,2023年,我国人员流动高效、货物运输繁忙有序、国际运输明显恢复,整体运输服务能力持续提升。 《统计公报》数据显示,2023年,平均每天超过1.6亿人次跨区域人员出行,其中有1000万人次乘坐火车出行、1.5亿人次通过公路出行、70万人次乘坐船舶出行、170万人次乘坐飞机出行。城市内平均每天近2.8亿人次通过城市公共交通及出租汽车出行。 货运方面:2023年平均每天运输1.5亿吨货物,其中火车运输约1400万吨、汽车运输1.1亿吨、船舶运输2500万吨、飞机运输2万吨。每天收寄快递与包裹4.5亿件左右,其中快递3.6亿件。 国际运输明显恢复:民航国际航线客运量比上年增长1461.7%。中欧班列全年开行1.7万列、发送190万标箱,比上年分别增长6%、18%。港口外贸货物吞吐量、外贸集装箱吞吐量比上年分别增长9.5%、5.0%。 (总台央视记者唐颖)
"青柠影院免费观看高清电视剧", 转自:有新Newin 幸运的是,作为OpenAIo1模型研究团队三位核心技术人员NoamBrown(OpenAI研究科学家,专注于AI推理和强化学习)、HunterLightman(OpenAI高级工程师,主要研究AI在复杂问题上的推--**-- 转自:有新Newin 幸运的是,作为OpenAIo1模型研究团队三位核心技术人员NoamBrown(OpenAI研究科学家,专注于AI推理和强化学习)、HunterLightman(OpenAI高级工程师,主要研究AI在复杂问题上的推理能力)以及IlgeAkkaya(OpenAI研究员,特别关注AI在数学和逻辑推理方面的应用)也在近日与红杉美国合伙人SonyaHuang以及PatGrady展开了一场对谈。 NoamBrown强调,o1模型的一个核心突破在于延长推理时间带来的能力提升。通过增加推理时间,模型在解决复杂问题时表现出了自发的回溯和自我修正能力,这使得它在像数独和复杂逻辑等问题上表现尤为出色。通过这种“延时推理”,o1能更有效地应对高难度任务。 HunterLightman认为,o1模型不仅通过推理时间扩展了AI的能力,还为未来AI的发展开辟了新的方向。与之前依赖数据和计算能力扩展的AI模型相比,o1的推理时间扩展代表了一种全新的维度。这种方式有望在未来的模型版本(如o2和o3)中进一步扩展AI能力。 NoamBrown和HunterLightman承认,尽管o1在推理任务中表现出色,但它并非在所有任务上都优于其他AI模型。尤其在非STEM领域,模型的表现还有很大的改进空间。 以下为这次对话的主要内容,enjoy~ SonyaHuang: o1是OpenAI首次在推理时间计算上的重大尝试。我们很期待和团队讨论推理、思维链、推理时间缩放定律等话题。 Ilge、Hunter、Noam,感谢你们的到来,并祝贺你们将o1推向公众。我想先问一下,你们从一开始就确信这个项目会成功吗? NoamBrown: 我认为我们从一开始就相信这一方向有潜力,但实际走到今天的路径并不清晰。你看看o1,这并不是一夜之间的成果。实际上,这背后有多年研究,而其中很多研究并没有取得成效。 我认为OpenAI的领导层一直坚信这一方向必须有结果,并愿意在早期遇到挫折的情况下继续投资,这最终得到了回报。 HunterLightman: 我一开始没有像Noam那样有强烈的信心。我已经花了很长时间研究语言模型,试图让它们学会做数学和其他推理任务。研究的过程总是有起有落,有时有效果,有时没有。 但当我们发现这一方向开始奏效时,我经历了一个“啊哈”的时刻,那时我读了一些模型生成的输出,它们以不同的方式处理问题解决。这就是我信心确立的时刻。 我认为OpenAI整体上采取了一种非常实证、数据驱动的方式,当数据开始向你展示趋势并且变得有意义时,我们就会追随这些线索。而这也是我信心确立的时刻。 SonyaHuang: Ilge,你已经在OpenAI工作了很长时间,五年半了。你怎么看?你从一开始就相信这个方法会成功吗? IlgeAkkaya: 不,我加入后曾几次判断错误。我一开始以为技术是通向AGI的道路,所以我最初加入了机器人团队,认为AGI会出现在具身智能中。然而,事情并没有按预期发展。 在我工作的这段时间,ChatGPT 的出现无疑是个范式转变。我们能够向全世界展示一个通用接口,我很高兴我们现在有了一条可能的新的前进路径来推动这一推理范式。但对我来说,长时间里,这条路径并不明显。 PatGrady: 我知道你们出于很好的理由,不能公开过多的细节,但你们能否大致介绍一下它的工作原理? IlgeAkkaya: o1模型系列使用了强化学习,能够进行推理,或者你也可以称之为“思考”。它与我们过去使用的大型语言模型有本质上的不同。 我们已经看到它在很多不同的推理领域中都表现出良好的泛化能力,我们也在最近展示了这一点。所以我们对这个新模型家族带来的范式转变感到非常兴奋。 PatGrady: 对于那些不太熟悉当前语言模型技术的人来说,什么是推理?你能否简要定义一下推理,并解释为什么它很重要? NoamBrown: 一个简单的理解是,推理是针对那些思考更长时间有明显好处的问题的能力。你知道,人类有经典的系统1和系统2思维。 系统1是自动化的、直觉式的反应,系统2则是较慢的、更有流程驱动的反应。对于某些任务,延长思考时间并不会带来更多好处。 比如,如果我问你“不丹的首都是哪里?”,你可以花两年的时间思考,但这不会提高你的正确率。顺便说一句,不丹的首都是什么?其实我也不知道。不过,确实有一些问题,通过延长思考时间可以带来更高的准确性。 一个经典的例子是数独,你可以理论上尝试各种解法,并且正确解法非常容易识别。因此,只要有足够的时间,你最终会找到正确答案。 很多AI领域的研究者对推理有不同的定义,我不主张这是唯一的定义。每个人都有自己的看法,但我认为推理是那些通过考虑更多选项和思考更长时间可以获益的问题。 你可以把它理解为一个生成-验证的差距问题:生成一个正确的解法很难,但识别正确解法却相对简单。 我认为所有问题都在这个光谱上,比如数独这种验证比生成容易的问题,以及验证和生成同样困难的问题,比如不丹的首都叫什么。 SonyaHuang: 我想问一下关于AlphaGo和Noam的背景,你以前在扑克和其他游戏方面的研究有多大程度与o1的工作相关?它们之间有哪些相似和不同之处? NoamBrown: 我认为o1的一大亮点是它确实在思考时间增加的情况下表现更好。如果回顾过去的许多AI突破,AlphaGo是一个经典的例子。 它的一个显著特点是会花很长时间在每步行动前思考,可能需要30秒来决定下一步。如果让它瞬间做出决策,它其实比不上顶级的人类选手。因此,它的表现很大程度上依赖于这些额外的思考时间。 问题在于,这种额外的思考时间是依靠蒙特卡洛树搜索(MCTS)进行的,这是一种特定的推理方法,适用于围棋,但在我早期研究的扑克游戏中却行不通。因此,尽管神经网络部分(系统1的部分)是通用的,但当时存在的推理方法仍然是特定领域的。 o1的另一大亮点是它的推理方式非常通用,适用于许多不同的领域。我们已经看到了用户使用它的各种方式,也验证了这一点。 HunterLightman: 语言模型一直吸引我的地方是,它们的接口非常通用,可以适应各种问题。这次我们感到兴奋的是,我们认为我们有一种方法,可以在这种通用接口上做强化学习,并期待看到未来的可能性。 PatGrady: 你提到生成和验证之间的差距,这在不同问题上有所不同。那么在推理过程中,这种差距的处理方法是否是一致的,或者在不同的情况下有不同的方法? HunterLightman: 这次发布让我兴奋的地方之一是,o1能够交到那么多人手里,我们可以看到它在哪些问题上表现好,哪些问题上表现差。这是OpenAI的核心战略之一,我们通过迭代式的技术部署,观察世界如何与它互动,并不断改进我们的研究。 PatGrady: 在推特上,有什么用户使用o1的方式让你感到意外吗? IlgeAkkaya: 让我非常兴奋的一件事是,我看到很多医生和研究人员把这个模型当作头脑风暴的合作伙伴。他们在癌症研究领域工作多年,正在与模型讨论一些关于基因发现和基因疗法的想法。 虽然模型无法自行进行研究,但它可以成为人类的良好协作伙伴,帮助推动科学研究的进步。 SonyaHuang: Noam,我记得你曾发推说,深度强化学习(DeepRL)已经走出了“幻灭低谷”。你能详细解释一下你的意思吗? NoamBrown: 我觉得这一切可以追溯到Atari游戏,DeepMind在Atari上的深度强化学习(DRL)结果曾经非常热门。我当时正在攻读博士学位,大约在2015到2019年之间,DRL无疑是最热门的研究领域。 在某些方面,确实取得了大量研究成果,但也忽略了一些问题。其中一个被忽视的方面就是利用进行训练的力量,比如GPT的训练方式。在某种程度上,这非常令人惊讶。 看看AlphaGo,它无疑是深度强化学习领域的重大成就之一。尽管其中有RL(强化学习)步骤,但更重要的是,AlphaGo在这之前还进行了基于人类数据的学习,这才是让AlphaGo真正起飞的原因。 然后,研究界逐渐出现了一种观点,认为不依赖人类数据、从零开始学习才是“纯正”的方向。 这也导致了AlphaZero的出现,尽管它的表现比AlphaGo更好,但这个过程的转变忽视了像GPT这样的大规模数据训练的潜力,除了OpenAI之外,很少有人关注这个方向。 OpenAI在初期看到了这个方向的一些初步成果,并有决心加倍投入。所以,DRL确实经历了一段高峰期,随后随着 GPT-3等大模型的成功,DRL的热度有所下降,许多人对它失去了信心。不过,随着o1的出现,我们看到了DRL在与其他元素结合时仍然具有强大的潜力。 SonyaHuang: 我认为很多DRL的成果是在相对明确的设定下产生的。游戏中的o1是首次在更广泛的、无界环境中使用DRL的案例之一吗?这样理解对吗? NoamBrown: 是的,我觉得这是一个很好的观点。许多DRL的亮点成果确实非常酷,但它们的适用范围也非常狭窄。虽然我们确实看到了一些相当有用且通用的DRL成果,但没有什么可以与 GPT-4的影响力相比。因此,我认为在新的范式下,DRL未来将达到类似的影响力水平。 SonyaHuang: 我还记得AlphaGo的比赛结果,尤其是在一些锦标赛中的第37手,那个动作震惊了所有人。 你在o1的研究中是否见到过类似的时刻,模型给出了一个让所有人意外的答案,但实际上是对的,甚至比人类的想法更好?你们是否有过那样的时刻,还是认为可能要等到o2或o3? HunterLightman: 我想起了一个例子,我们在为IOI(国际信息学奥林匹克竞赛)做准备时,把模型投入到解决问题的过程中。有一个问题,o1执意要用一种奇怪的方法去解决,具体细节我不太清楚,我的同事们,他们更擅长竞赛编程,试图弄清楚为什么模型会这样做。 我认为这并不是“天才之作”的那种时刻,而是模型不知道正确的解决方法,于是反复尝试,直到找到另一个解决方案。它确实解决了问题,只是用了一个看起来很奇怪的方法。我记得这是一个有趣的例子,在编程竞赛的结果中,模型确实以一种不同于人类的方式思考问题。 IlgeAkkaya: 我看到模型解决了一些几何问题,它的思考方式让我感到很惊讶。比如,你让模型计算一个球体上的点,然后询问某个事件发生的概率,模型会说:“让我们先来想象这个场景,放置这些点,然后从这个角度思考。” 这种用语言进行可视化的方式真的让我吃惊,就像我作为人类会做的那样,而看到o1也能做到这一点,真的让我感到意外。 SonyaHuang: 非常有趣。这不仅是人类可以理解的,还能扩展我们对问题的思考方式,而不仅仅是某种难以理解的机器语言。这真的非常吸引人。 HunterLightman: 是的,我确实认为o1的结果中最酷的一点是,它的思维链是可以被人类解释的,这使我们能够理解模型的思维过程。 PatGrady: 在研究过程中有没有出现那种“啊哈”的时刻?Hunter,你提到一开始你并不确信这个方向会成功,有没有某个时刻让你突然意识到:“天啊,这个方向真的有效!” HunterLightman: 我在OpenAI已经工作了大约两年半的时间,大部分时间都在努力让模型更好地解决数学问题。我们为此做了很多工作,构建了各种定制系统。 在o1的研究过程中,有一次我们训练了一个新模型,应用了一些修复和修改,结果它在数学评估中的得分比我们之前所有的尝试都高,甚至超过了我们设计的定制系统。 我们查看了思维链的变化,发现它们表现出了不同的特征。特别是当模型犯错时,它会说:“等等,这不对,我需要退一步,重新找出正确的方向。”我们称这种行为为“回退”(backtracking)。 我已经等待很长时间想看到模型能够回退的例子,当我看到这个得分和思维链时,我意识到这真的有潜力,我需要更新我的看法。这就是我信心确立的时刻。 NoamBrown: 我觉得对我来说也是类似的故事。大概是在同一时间,我加入时的想法是,像ChatGPT这样的模型并没有真正“思考”才作出回应,它的反应非常快速。 而在AI领域的游戏中,能够花更多时间思考可以获得更好的结果。所以我一直在思考,如何将这一点引入到语言模型中。 这听起来简单,但实际上如何实现是个挑战。我们讨论了很多如何让模型拥有反思能力,如何在犯错时回退或尝试不同的方法。 最终,我们决定尝试一个基本的方案,就是让AI思考更长时间。结果我们发现,一旦AI能有更多的思考时间,它几乎是自发地发展出这些能力,包括回退和自我修正。 这些都是我们想让模型实现的,而现在通过这样一个简单且可扩展的方式就实现了。 NoamBrown: 这对我来说是一个关键时刻,那时我意识到我们可以进一步推动这个方向,而且方向非常明确。 HunterLightman: 我一直在理解Noam对“推理计算”(convictioncompute)的信心有多强大。我记得他刚加入时,我们的很多一对一对话都围绕着测试时计算的力量展开。 在项目进行的多个阶段,Noam都会说:“为什么不让模型思考更长时间?”然后我们就这么做了,结果模型表现得更好。他看着我们时的表情有点好笑,仿佛在说:“为什么我们之前没这么做?” SonyaHuang: 我们在你们的邮件中注意到,o1在STEM领域表现得非常好,明显优于你们之前的模型。对此有没有一个大致的解释?为什么会这样? NoamBrown: 我之前提到过,有些任务,比如推理任务,验证一个答案比生成一个答案要容易。STEM领域的问题往往属于难以推理的问题类型。所以这就是我们看到o1在STEM学科表现更好的一个重要原因。 SonyaHuang: 明白。我想补充一个问题,我们在你们发布的研究论文中看到,o1通过了你们的研究工程师面试,而且通过率相当高。对此你怎么看?这是否意味着未来OpenAI会雇佣o1来代替人类工程师? HunterLightman: 我认为我们还没有达到那个水平。我觉得还有更多工作要做。 SonyaHuang: 不过要达到100%还是很难的,对吧? HunterLightman: 也许我们需要更好的面试方法。但至少在我看来,o1已经比之前的模型更像一个编程伙伴。我认为它已经在我们的代码库中提交了几次代码变更。 从某种意义上讲,它确实像一个软件工程师,因为软件工程也是一个受益于长时间推理的STEM领域。 我认为当前模型在进行推理时只思考了几分钟,但如果我们继续扩展这个趋势,让o1思考更长时间,它可能会完成更多类似的任务。 NoamBrown: 你可以知道我们实现了AGI的那一天就是当我们下架所有招聘信息,而公司状况要么非常好,要么非常差的时候。 SonyaHuang: 你认为要让o1在人文学科上表现出色需要做些什么?你认为推理、逻辑和STEM领域的优势会随着推理时间的扩展自然延伸到人文学科吗?还是说会有其他因素? NoamBrown: 如你所说,我们发布了模型,也很好奇它擅长什么、不擅长什么,用户会用它来做什么。我认为模型的原始智能和它在实际任务中的有用性之间仍然存在差距。 在某些方面它非常有用,但在更多方面它可以更有用。我认为我们还有很多迭代的空间,来解锁这种更广泛的通用性。 PatGrady: 那么我很好奇,OpenAI内部有没有关于模型能力与实际应用需求之间差距的哲学?你们是否有一个明确的思考过程来决定哪些工作应该由模型完成,哪些工作应留给围绕API的生态系统来解决? NoamBrown: 在我加入之前,我就听说OpenAI非常专注于AGI,而我当时对这一点还有些怀疑。基本上,我刚开始工作的第一天,公司召开了一次全员会议,Sam站在大家面前,明确表示AGI是我们的首要目标。 因此,最明确的答案就是AGI是我们的终极目标,没有某个单一的应用是我们的优先事项,除了是否能够使用AGI。 PatGrady: 你们对AGI有明确的定义吗? NoamBrown: 每个人都有自己的定义,对吧?这也是为什么这个问题很有趣。 HunterLightman: 我不知道我是否有一个明确的定义。我只是觉得这可能与AI系统能够完成的经济上有价值的工作比例有关。 我认为在未来几年内,这个比例会迅速上升。我不确定具体会如何发展,但这可能是那种“当你感受到时你就知道”的情况。 我们可能会不断调整标准,直到有一天我们与这些AI同事一起工作,而它们完成了我们现在做的许多工作,而我们则在做不同的工作。整个工作生态系统都会发生变化。 PatGrady: 你的一位同事曾很好地表达了推理在通往AGI的过程中重要性。他的大意是:任何工作都可能遇到障碍,而帮助你克服这些障碍的正是你的推理能力。 我认为这是一个不错的连接,说明了推理为何重要以及与AGI目标的关系。你们认为这是理解推理为何重要的最佳方式吗?还是有其他的框架可以帮助我们理解推理? HunterLightman: 我认为这是一个有待确认的问题。因为在开发这些AI系统和模型的过程中,我们看到了它们的各种表现和不足。 我们在开发、评估这些系统时学到了很多新东西,并试图了解它们的能力。例如,一些想到的事情是战略规划、头脑风暴等。 PatGrady: 如果要让AI像优秀的产品经理一样好,它需要大量的创意和对用户需求的洞察。这算是推理吗?还是说这是一种与推理不同的创造力,需要以不同的方式处理? 当你开始将这些计划转化为行动时,你还需要进行战略规划,考虑如何推动组织达成目标,这算是推理吗? HunterLightman: 也许部分是推理,但也许部分是其他东西。最终,我们可能会觉得这些都是推理,或者我们会发明一个新词,描述需要采取的新步骤。 IlgeAkkaya: 我不确定我们能将这个推理问题推进到什么程度。每当我思考这个广泛的推理问题时,数学领域的例子总是很有帮助。 我们花了很多时间阅读模型在解数学问题时的思维过程。你能看到,当它遇到障碍时,它会退回去,尝试另一个方法。 这种思维过程让我觉得,也许它能推广到数学之外的领域,这给了我一些希望。虽然我不知道最终答案是什么,但希望如此吧。 HunterLightman: 让我感到困惑的是,o1已经在数学上比我更厉害了,但它在软件工程上却不如我。所以这里存在某种不匹配。 PatGrady: 看来还有很多工作要做。 HunterLightman: 是的,还有一些事情要做。如果我的整个工作只是解Amy问题和参加高中数学竞赛,我可能早就失业了。但现在我仍然有工作可做。 PatGrady: 既然你提到了“思维链”,即观察背后的推理过程。我有个问题,也许你们无法回答,但就当是有趣的讨论吧。 在你们发布o1的博客中,你们解释了为什么要隐藏“思维链”,并说部分原因是出于竞争考虑。我好奇,这是否是一个有争议的决定?因为我可以想象,这种决定很有逻辑,但也可以想象你们可能选择公开它。能否谈谈这是一个有争议的决定吗? NoamBrown: 我不认为这是有争议的。与不分享前沿模型的权重出于类似的原因,分享模型的思维过程也存在很多风险。我认为这是一个类似的决策。 SonyaHuang: 能不能给外行解释一下,什么是“思维链”?可以举个例子吗? IlgeAkkaya: 例如,如果有人问你解决一个积分问题,大多数人会需要一张纸和一支笔,然后一步步推导出从复杂方程到最终答案的过程。 这个过程可能会得到一个答案,比如1,但如何得出这个答案?这就是数学领域中的“思维链”。 SonyaHuang: 让我们谈谈未来的路径,推理时间的扩展定律。在你们发布的研究中,这是我认为最重要的图表。这似乎是一个具有深远意义的结果,类似于预训练中的扩展定律。你同意这种看法吗?这对领域的影响会是什么? NoamBrown: 我认为它确实具有深远意义。在我们准备发布o1时,我一直在想人们是否会认识到它的重要性。虽然我们提到了这一点,但这是个比较微妙的点。 我真的很惊讶和感激,看到这么多人理解了这一点的意义。一直以来,人们对AI可能遇到瓶颈或停滞的担忧很多,尤其是预训练变得越来越昂贵,还有关于是否有足够数据的问题。 o1,特别是o1Preview,传达的主要信息并不是它今天的能力,而是它对未来的意义。我们能够在扩展中发现一个迄今未被充分开发的维度,我认为这是一个重大突破,这意味着天花板比许多人想象的要高得多。 SonyaHuang: 如果让模型思考数小时、数月甚至数年,会发生什么? HunterLightman: 我们还没有让o1运行那么久,所以还不知道。 PatGrady: 现在有个后台任务在运行吗?可能正在思考如何解决世界和平问题。 HunterLightman: 有一个类似的故事叫《最后的问题》,讲的是一个巨大的计算机AI被问到如何逆转熵,它回答:“我需要更长的时间思考。” 故事接着讲述了,10年后,它还在思考,100年后,1000年后,甚至一万年后,它还在思考。 IlgeAkkaya: “目前还没有足够的信息来提供有意义的答案。”类似于这样。 SonyaHuang: 你对未来有猜测吗?你觉得当模型的推理时间越来越长,它的智力极限会达到什么程度?目前我看到的报告是,它的智商大约是120,那它会无限提高吗? HunterLightman: 一个重要的点是,120智商只是某个测试中的分数,并不意味着它在所有领域都有120的推理能力。 实际上,我们也谈到,它在某些方面的表现不如40分,比如在创造性写作等方面。所以,推测这个模型的能力是很复杂的。 NoamBrown: 这是一个重要的点。我们谈论这些基准测试时,强调了GPQA,这是一个博士生会遇到的问题集合,通常由博士生来解答,但AI现在在这个基准测试中超过了很多博士生。 这并不意味着它在所有方面都比博士生聪明。博士生和人类能够做很多AI无法做到的事情。所以我们在看这些测试结果时,应该理解它只是测量了某些特定的能力,通常是人类智力的代理,但对AI来说,意义有所不同。 HunterLightman: 也许可以这样说,我希望看到的是,当我们让模型在它已经擅长的领域思考更长时间时,它会变得更好。 我的一个“推特时刻”是看到我以前的数学教授发推,他对o1印象深刻,因为他给了它一个之前从未被AI解过的证明,而它竟然完成了。 这让我感觉我们正处于某个有趣的转折点,模型有望成为一个有用的数学研究工具。如果它能够帮助完成一些小的引理和证明,那将是一个真正的突破。我希望通过让它思考更长时间,我们能够在这方面取得更大的进展。 要预测它在当前不擅长的领域会如何表现,这对我来说很难。我们如何让它在这些方面变得更好?未来会如何发展? 但是我们可以以它现在擅长的领域为基础,假设如果我们让它在这些领域思考更久,它将成为数学研究的好助手、软件工程的好帮手。这样我们就可以开始预测未来的发展方向。 PatGrady: 关于扩展的瓶颈问题。对于预训练来说,很明显你需要大量的计算能力、大量的数据,这些都需要大量的资金。所以很容易理解预训练在扩展方面的瓶颈。那么,推理时间的扩展会有什么限制呢? NoamBrown: 当GPT-2和 GPT-3发布时,很明显只要投入更多的数据和GPU,它们的性能就会显著提升。 但即便如此,从GPT-2到 GPT-3再到 GPT-4之间还是花了好几年的时间。这不仅仅是一个简单的想法,还有很多工作要做,才能把它扩展到一个非常大的规模。 我认为这里也面临类似的挑战,虽然这个想法很简单,但要真正扩展它,需要投入大量的工作。所以我认为这是挑战所在。 HunterLightman: 是的,我认为对于那些学术背景较强的研究人员来说,加入OpenAI后可能会发现令人惊讶的事情之一是,很多问题最终并不是研究问题,而是工程问题。 构建大规模系统、训练大规模系统,以及运行那些早已发明的算法,或者前所未有的系统,都是非常困难的。这需要大量艰难的工程工作,才能让这些东西扩展起来。 IlgeAkkaya: 此外,我们还需要知道该在什么标准上测试模型。我们确实有标准的评估基准,但可能还有一些我们尚未测试到的领域。所以我们也在寻找这些领域,在这些地方我们可以投入更多的计算资源,获得更好的测试结果。 SonyaHuang: 我一直很难理解的是,当你给模型提供接近无限的计算资源时,会发生什么。作为一个人类,即便是TerrenceTao这样的大脑天才,也会受到生理限制。 而你可以无限增加推理时间的计算资源。这是否意味着,所有的数学定理最终都可以通过这种方法解出来?或者你认为会有某种极限? HunterLightman: 无限计算资源是很大的计算能力。 SonyaHuang: 接近无限。 HunterLightman: 这让我想起了Asimov的故事,如果你让它思考一万年,也许能解决某些问题。但说实话,我们还不知道这种扩展对于解决真正难的数学定理意味着什么。可能真的需要让它思考一千年,才能解决一些未解的核心数学问题。 NoamBrown: 是的,我的意思是,如果你让它思考足够长的时间,理论上你可以把一切形式化,像Lean那样,把所有可能的证明都遍历一遍,最终你会发现定理。 HunterLightman: 我们已经有算法可以解决任何数学问题,也许这就是你要说的。 NoamBrown: 是的,只要有无限的时间,你可以做很多事情。当然,随着时间的延长,回报会逐渐递减,但的确可以取得一些进展。 SonyaHuang: 非常公平。你认为关于o1最大的误解是什么? NoamBrown: 我觉得一个大误解是,当项目名称“草莓”(strawberry)泄露时,人们以为这是因为网络上流传的一个问题:“草莓有多少小时?”其实并不是这样。 当我们看到这个问题时,我们还很担心是不是有内部信息泄露。但据我们所知,这只是个巧合,我们的项目名字碰巧叫“草莓”,而那个问题也恰好流行起来了。 HunterLightman: 据我所知,之所以叫“草莓”,只是因为当时有人需要想个代号,而屋里有个人正好在吃一盒草莓,事情就这样定了。 PatGrady: 相比之下,这个名字比“休斯顿”要更容易让人联想。 NoamBrown: 我觉得我对它被理解得这么好感到印象深刻。我们在发布时确实不确定大家会怎么接受。内部有过很大的争论:人们会不会失望,因为它并不能在所有方面都更好?还是他们会对它惊人的数学表现感到印象深刻? 我们真正想传达的并不是这个模型目前的能力,而是它未来的发展方向。我不确定大家是否能理解这一点,但似乎很多人确实领会了,所以我对此非常满意。 SonyaHuang: 关于o1,你觉得有没有什么批评是合理的? HunterLightman: 毫无疑问,它并不能在所有方面表现得更好。它是一个有点古怪的模型,很多人在互联网上发现了不同的提示方式来更好地使用它。 仍然有很多怪异的边缘案例,我很期待看到生态系统如何基于我们的平台开发出更智能的产品和应用。 HunterLightman: 我觉得我们还处于非常早期的阶段。有点像一年前人们开始真正搞清楚如何使用 GPT-4及其语言模型程序,进而使得软件工程工具变得更智能。我希望我们会看到类似的进展,人们会基于o1进行创新。 PatGrady: 说到这一点,有一件我们还没讨论的事情,就是o1Mini。我听到很多人对o1Mini非常兴奋,因为大家普遍对小模型感兴趣。 如果你能够保留推理能力并提取部分世界知识,那么这是一件非常不错的事情。我很好奇,你们对o1Mini和它代表的方向有多兴奋? IlgeAkkaya: 这个模型非常令人兴奋。对我们研究人员来说,如果模型运行得快,它的用途就更广泛。所以我们也很喜欢它。它们有不同的用途。 我们很高兴有一个更便宜、更快的版本,还有一个更重、更慢的版本。它们在不同的场景中都非常有用。所以,我们对取得的这种平衡感到非常兴奋。 HunterLightman: 我喜欢这种表述,这强调了进展的重要性。o1Mini让我们能够更快地迭代,希望对广大的用户生态系统来说,它也能让他们更快地迭代。所以它至少在这一点上是非常有用且令人兴奋的产物。 SonyaHuang: 对于那些在AI领域创业的创始人们来说,他们应该如何考虑何时使用 GPT-4,何时使用o1?是否需要他们从事STEM、编程、数学相关的工作才能使用o1?他们应该怎么思考这个问题? HunterLightman: 我希望他们能帮我们找到答案。 NoamBrown: 我们发布o1Preview的动机之一是想看看人们最终会用它做什么,怎么使用它。事实上,我们还讨论过是否值得发布o1Preview。 但最终发布的原因之一就是为了让大家尽早接触到它,看看它在什么场景下最有用,在哪些场景下不太合适,以及如何改进它以满足用户的需求。 SonyaHuang: 你觉得人们目前最容易低估o1的是什么? HunterLightman: 我觉得这证明了我们给模型命名的能力有所提升,至少我们没叫它“ GPT-4.5思维模式”。 SonyaHuang: 不过,我觉得“草莓”这个名字挺可爱的。 PatGrady: 我觉得“思维模式”也挺有意思。你们对o2或o3最兴奋的是什么? IlgeAkkaya: 我们还没有达到没想法的地步,所以我很期待接下来的进展。我们会继续研究,最期待的是获得反馈。作为研究人员,我们显然在自己擅长的领域有一定的偏见,但通过产品的使用,我们将收到来自各个不同领域的反馈。也许我们会发现一些超出我们想象的领域值得深入推进。海量资讯、精准解读,尽在新浪财经APP
"青柠影院免费观看高清电视剧",
作者:太叔友灵
港股暴涨,投资者国庆假期赴港开户!赴港开户投资者称银行大排长龙
"青柠影院免费观看高清电视剧",微博观影团《小孩不笨3》北京首映免费抢票,台积电刷屏:2nm制程节点取得重大突破苹果首家尝鲜?,时隔近四个月韩国政府和医疗界为何仍在“硬碰硬”?,阿联酋航空宣布禁止在航班上携带寻呼机和对讲机,微博观影团《刺猬》北京首映免费抢票
"青柠影院免费观看高清电视剧",太意外!他宣布放弃!原因透露后网友大赞……
"青柠影院免费观看高清电视剧",
总监制:从阳洪
监 制:丹梦槐
主 编:以王菲
编 审:应平原
(文章未经授权不得转载。)