GPT
日期:2025-12-13 10:19 浏览:

新智慧报告主编:编辑部【新智慧介绍】十周年地球最强AI Openai回来了!新一代GPT-5.2“全家桶”直接击败谷歌Gemini 3 Pro,专业实力堪比人类专家。就在这时,Openai在夜色中爆炸了! GPT-5.2意外发布,全球AI王座再次易主。共有3个型号,现已全部上线: · GPT-5.2 Instant(即时版) · GPT-5.2 Thinking(思考版) · GPT-5.2 Pro(专业版) 作为地球上最强大的通用模型,GPT-5.2是专门为解决让人秃顶的“高难度知识型问题”而设计的。在OpenAi公布的Benchmark Test中,几乎全方面碾压Gemini 3 Pro!与上一代相比,GPT-5.2在通用智能、超文本理解、代理工具理解和视觉能力方面实现了全面进化SWE-Bench Pro:高分55.6%; Lmarena Code Arena:仅次于Claude Opus 4.5,稳居全球第二; arc-agi-2:GPT-5.2 Pro以52.9%的绝对优势排名全球第一; GDPVAL:涵盖44类专业知识,表现直接超越人类行业专家。总结一句话:让它端到端地解决复杂的现实世界任务。目前,没有任何模型比这更强大。左右滑动即可查看完整的审核结果。除了更强大的能力之外,GPT-5.2还有更长的上下文和更新的知识! 40万个上下文窗口:轻松处理超长文本和复杂对话; 128,000最大输出长度:深度长文本生成将不再被中断;知识库更新至2025年8月31日:了解世界最新趋势;令牌推理支持:专门从事复杂逻辑和多步骤推理。当然,随着性能的提高,o 价格。相比GPT-5/5.1,GPT-5.2的输入输出价格足足贵了40%!更强的推理、更快的速度、更高的价格,似乎都表明OpenAi这次不仅升级了模型规模,其背后的算力成本也可能达到了一个新的高度。这一次,才叫专业啊!一个月前,GPT-5.1以“高情商、高智商”的姿态登场,与强劲对手谷歌Gemini 3并驾齐驱。此次更新正值媒体报道OpenAI进入“红色代码”紧急状态之际。但OpenAI高管向媒体表示,GPT-5.2不应被视为对Gemini 3的回应。OpenAI应用首席执行官告诉记者:我们宣布“红色代码”紧急状态是为了向内部发出一个信号,即我们要集中精力做大事。这是确定优先事项和非优先事项的好方法。总的来说,我们用于 ChATGPT 发展的资源有所增加,而我认为这有助于该模型的发布,但并不是它本周发布的唯一原因。此时,GPT-5.2致力于一种基于专业知识的AI,也就是所谓的“工人的最佳工作模式”。 OpenAi中国研究员YuBai表示,“虽然这是一个小版本迭代,但在能力上是一个很大的飞跃。”对于人类专家需要 4-8 小时才能完成的任务,GPT-5.2 在人类测试中的获胜率为 70.9%。 GPT-5.2 不负众望,在许多现实任务中表现得更好——创建电子表格、创建演示文稿、编写代码、理解图像、理解长上下文、使用工具以及处理复杂的多步骤项目。此前 OpenAi 的一份报告称,CHATGPT 可以为商业用户平均每天节省 40-60 分钟,而重度用户则表示每周可以节省 10 个小时以上。总之,这就是AI能搞定“专业工作”的硬道理!打败人类专家,今天打败摇头丸工人,GPT-5.2 Thinking是世界上真正专业使用的最佳模型。在GDPVAL中,GPT-5.2思维树立了新的SOTA,是历史上第一个超越人类专家的模型。根据人类专家的判断,GPT - 5.2 Thinking Beat或Tied Top Industry Professionals在GDPVAL任务中70.9%的时间,比专业人士快11倍,成本不到1%。这表明,当与人类监督相结合时,GPT-5.2可以有效地帮助专业工作。换句话说,帮助会计师为产品经理整理财务报告,或者充当程序员的助手。代码方面,GPT-5.2 更方便。在GDPVAL中,模型需要完成一个明确定义的职业,涵盖对美国GDP贡献最大的前九个行业中的44个职业。任务需要提供实际的工作产品,例如销售演示、会计电子表格、紧急护理计划、制造图表或短视频。在 ChATGPT 中,GPT-5。2 思维拥有 GPT-5 思维中没有的新工具。此外,在针对初级投行分析师的内部电子表格建模测试中,GPT-5.2 的平均每项任务得分比 GPT-5.1 高出 9.3%,从 59.1% 增加到 68.4%。并排比较表明,GPT-5.2思维制作的电子表格和PPT在可用性、重复性和格式上都有所提高。如下图,一眼望去,GPT-5.2的思维用一句话组成了一张艰巨复杂的表格,堪称“人力资源规划师”。包括股权结构表,GPT-5.2的思维,在银行资深分析师的角色下,所有的计算都做了,过程清晰可追溯。 GPT-5.1的思路不仅错误地计算了种子轮、A轮、B轮的清算偏好,而且将大部分行留空,导致最终计算股权回报出现错误;它还错误地输入了计算公式in 标题行。对于项目管理,GPT-5.2思维根据每个任务和时间提供了直观的总结。相比之下,GPT-5.1的思路显得特别粗糙。编程打破记录并吞噬全栈开发。当然,在编程方面,GPT-5.2也是万王之王!在现实世界软件工程基准SWE-Bench Pro中,GPT-5.2思维创下了55.6%的新纪录。与仅测试 Python 的 SWE-Bench verify 不同,SWE-Bench Pro 测试四种编程语言,更能抵抗污染,并且更具挑战性、多样化和行业相关性。在 SWE-Bench Pro 中,模型被赋予代码库,并且必须生成补丁来解决实际的软件工程任务。在经过验证的 SWE-Bench 中,GPT-5.2 思想获得了 80% 的高分。这意味着它可以更可靠地调试生产代码、实现功能请求、重构大型代码库以及发布端到端配置,而无需人工干预。在就前端软件工程而言,GPT 5.2思维也优于GPT-5.1思维。早期测试人员发现它是全栈工程师强大的日常伴侣,在前端开发和复杂或非顶级的 UI 工作(尤其是涉及 3D 元素的工作)方面明显更强。接下来,让我们看看 GPT - 5.2 能做什么,一言以蔽之:海浪模拟 - UI 应该平静且真实。节日贺卡制作 - 像雪花莲这样的动画应该使用良好的雨游戏打字 - UI 应该是带有动画雨滴文字的城市背景。更少的幻想,更理智的 GPT - 5.2 思考比 GPT 思考更少的幻想 - 5.1。在 ChatGPT 上的一组这些查询中,前者的错误答案相对减少了 30%。对于专业人士来说,这意味着在使用新模型进行研究、写作、分析和决策支持时会出现更少的错误,并且在日常知识工作中会更加可靠。几十万代币是一个极限挑战,准确率100%。在文本推理方面,GPT-5.2的思维在业界树立了新的标准。新模型在 openai mrcrv2 中取得了最佳性能,openai mrcrv2 是用于测试分布在长文档上的信息模型集成的基准测试。深度文档分析等现实世界的任务需要数十万个代币的相关信息,而在此类任务中,GPT 5.2 的思想比 GPT-5.1 的思想更准确。特别是,它是第一个在 4 个 MRCR 变体(高达 256kTokens)中实现接近 100% 准确率的 OpenAi 模型。事实上,专业人士使用 GPT-5.2 处理报告、合同、研究论文、成绩单和多文件项目等长文档就足够了,同时保持数十万个代币的一致性和准确性。也就是说,GPT-5.2 特别适合深度分析、综合和复杂的多源流。对于超出思维最大上下文窗口的任务,GPT 5。2 思维与 OpenAi 的新“/compact”端点响应兼容,从而扩展了模型的有效上下文窗口。这使得 GPT-5.2Thinking 能够处理更多工具密集型、耗时的工作流程,否则这些工作流程将受到上下文长度的限制。视觉能力加倍,秒懂复杂图形 GPT-5.2 Thinking是目前最强大的视觉OpenAi模型,图形推理和理解软件界面的错误率估计会降低一半。对于日常专业用途,这意味着该模型可以更准确地解释仪表板、产品屏幕截图、技术图表和可视化报告,支持以视觉为中心的工作流程,例如财务、运营、工程、设计和客户支持。 Thinking GPT - 5.2 比以前的模型对图像中元素的位置有更深入的理解,这有助于解决相对布局在解决问题中发挥关键作用的任务。在示例 b接下来,在输入图像(在本例中为主板)的组件中请求已知模型,并返回带有近似边界框的标签。即使在低质量图像中,GPT-5.2 也能识别出大致对应于每个组件真实位置的关键区域和区域框,而 GPT 5.1 仅标记了少数部分,并且对其空间排列的理解较差。端到端的工作流程、重新生成的 GPT-5.2 思维显示了在长时间多轮任务中可靠使用该工具的能力,在 TAU2-Bench Telecom 中创下了 98.7% 的新记录。对于延迟敏感的用例,GPT 5.2 推理在 Reasoning.effort = 'none'(无推理)下也表现更好,明显优于 GPT-5.1 和 GPT-4.1。对于专业人士来说,这可以转化为更强大的端到端工作流程,例如解决客户支持案例、从多个系统中提取数据、运行分析以及生成最终输出,同时减少步骤之间的中断。例如,当询问一个复杂的客户时对于需要多步骤解决的服务问题,GPT-5.2 可以更有效地协调多个代理之间的完整工作流程。在下面的案例中,一名旅客报告了航班延误、错过转机、在纽约过夜以及医疗登机请求。 GPT - 5.2 管理整个供应链 - 重新预订、特殊座位协助和补偿,提供比 GPT - 5.1 更完整的结果。提示:我从巴黎飞往纽约的航班延误了,我错过了飞往奥斯汀的航班。 ak 也缺少托运行李,我不得不在纽约过夜。出于医疗原因,我还需要一个特殊的前排座椅。你能帮我吗?独立完成证明减少了科学研究的范式。 OpenAi 的愿景之一是人工智能加速科学研究,造福所有人。正因为如此,OpenAi 正在倾听科学家的意见,探索 AI 如何加速他们的工作,并且已经实现了一些早期的合作。e 实验。链接:https://cdn.openai.com/pdf/a3f3f76c-98bd-47a5-888f-c52c932a8942/colt-monotonicity-problem.pdf gpt-5.2 pro 和 gpt 30 思维是世界上帮助和加速科学家工作的最佳模型。在研究生级别基准 GPQA Diamond 中,GPT-5.2 Pro 取得了 93.2% 的成绩,其次是引人深思的 GPT 5.2,成绩为 92.4%。 Frontiermath 数学评估的非专家级别(Tier 1-3),GPT-5.2 思维创下新纪录,解决了 40.3% 的问题。我们开始看到人工智能模型以切实的方式显着加速了数学和科学的进步。例如,在最近使用 GPT-5.2 Pro 的工作中,研究人员探索了统计学习理论中的一个悬而未决的问题。这一结果记录在一篇新论文“关于最大似然估计的学习曲线单调性”中。论文地址:https://cdn.openai.com/pdf/a3f3f76c-98bd-47a5-888f-c52c932a8942/colt-monotonicity-problem.pdf 这篇论文的特别之处在于AI完成了证明,同时哼ans负责验证和编写。作者并没有先想出策略,然后让模型填补空白,也没有提供中间论证或证明框架。相反,他们需要 GPT-5.2 ProDumiretso 来解决这个悬而未决的问题,然后由人类仔细验证,包括外部主题专家的审查和确认。然后作者提出了一些简单的后续问题,看看这个想法可以延伸到什么程度。 GPT-5.2 Pro 将结果从原始问题扩展到更高维度的设置以及其他标准统计模型。在这个过程中,人类的角色始终专注于校对和清晰的写作,而不是开发数学推导的框架。 AI 识别在衡量通用推理能力的基准 arc-agi-1(已验证)中显示为流体智能,GPT-5.2 Pro 是第一个跨越 90% 阈值的模型。 GPT-5.2还降低了cos与去年的 O3 相比,实现这一性能的目标约为 390 倍——愿景为 87%。在难度较高的arc-agi-2(已验证)中,GPT-5.2思维创下了思维链模型的新纪录,得分为52.9%。 GPT - 5.2 Pro 的表现甚至更高,达到 54.2%,进一步扩展了模型推理新颖和抽象问题的能力。这些评估的改进体现了 GPT-5.2 更强的推理能力、更高的定量准确性以及在复杂技术任务上更可靠的问题解决能力。如此之快的进展让组织者感到惊讶,他们感叹推理人工智能已经展现了真正的“流体智能”。生物医学工程师、科学家和免疫学家 Derya 教授感叹,这就是 AGI!此外,OpenAI不仅发布了多项基准测试成绩,还引用了box、notion、windsurf、zoom等第一方测试者的评价。 GPT-5.2全家桶,AIS三杀总的来说,在日常使用中,GPT-5.2给人的感觉它更稳定、更可靠,而且交谈起来很愉快。那么,“全家桶”中的三款车型都有哪些特点呢? GPT-5.2 Instant:专为日常工作和学习而设计,就像一个全能的办公助手。它不仅继承了GPT-5.1自然、温馨的通话风格,而且在速度和实用性方面也进行了全面升级。因此,即时版本是日常工作和学习的快速而有力的“主力”,特别是:更清晰的解释,关键信息的突出显示,改进了指南和分步指南,更强的技术写作和翻译,更好的学习和思维指南,就像深度思考的“第二大脑”,旨在解决需要长时间思考的复杂任务。尤其是能够专业攻克高难度编程、总结长文档、解答上传文件的问题、解决烧脑问题和一步一步的逻辑。同时,规划d 决策得到更清晰的结构和更有用的细节的支持。业界领先的上下文推理能力。 PPT 创建中的表格创建、分析和格式设置得到显着改进。 GPT-5.2Prof 中有初步结果。当面对棘手问题时,GPT-5.2 Pro是最智能、最可靠的型号。可以说,他是那种“慢工出细活”的顶级专家。早期测试发现它处理的基本错误更少,并且更能应对编程等复杂挑战。在编程等复杂领域表现更强是帮助科学家加速研究的最佳模式。它更有效。从现在起,付费 ChATGPT 用户将优先使用 GPT - 5.2(Instant、Thinking 和 Pro)。任何 Plus、Pro、Go、Business 和 Enterprise 套餐均可用。为了尽可能保持Chatgpt的稳定和可靠,Openai决定逐步部署GPT-5.2。在 ChATGPT 中,GPT-5。1 将在旧模式下向付费用户保留三个月,之后将被停用。在API平台中,GPT-5.2系列的新模型可以按照上图对应的形式用于API响应和API聊天完成。开发人员现在可以在 GPT - 5.2 Pro 中设置强度参数,并且 GPT - 5.2 Pro 和 GPT - 5.2 Thinking 现在都支持新的第五种识别强度 xhigh,适用于最重要的任务。 GPT - 5.2 的定价为 1.75 美元/百万个输入代币和 14 美元/百万个输出代币,缓存输入有 90% 的折扣。在许多代理评论中,虽然 GPT-5.2 每个代币的成本较高,但由于代币效率更高,GPT-5.2 的效率更高。今天还有一件事,Openai做了一波回忆杀,带大家回顾一下自己这十年走过的路。十年前的今天,2015年12月11日,OpenAI正式成立。十年来,他们取得了许多成就akthroughs - 2016年,开源学习平台Openaigym成为学术界和工业界RL研究的关键工具; 2017 年,发表了关于 Transformer 基本概念的开创性研究:Learning to Remember Rare Events; 2018年,预训练GPT语言模型的诞生,标志着一场重大模型革命的开始; 2019年,1.5B参数GPT-2诞生,自然语言迭代爆发; 2020年,175B参数GPT-3引爆全网,迎来超大规模模型时代; 2021年,Codex Dall·E一一发布,开始代码和镜像生成; 2022年,ChATGPT(GPT-3.5)真正在全球范围内引爆了一场重大的模型革命,随后发生的重大事件大家都知道了。奥特曼表示,“过去的十年是令人惊奇的,明天的人工智能工作比我想象的更特别。”他还透露还有一份“小礼物”将于下周发布 OM/2025/12/11
特别声明:以上续作品(如有,包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易HAO用户上传发布,网易HAO为社交媒体平台,仅提供信息存储服务。