栏目分类马来西亚#文爱 o3来了！编程才气置身东谈主类天下前200，破解陶哲轩说难的数学测试

你的位置：在线尺子 > jusewang >

马来西亚#文爱 o3来了！编程才气置身东谈主类天下前200，破解陶哲轩说难的数学测试

发布日期：2024-12-22 07:38 点击次数：130

马来西亚#文爱 o3来了！编程才气置身东谈主类天下前200，破解陶哲轩说难的数学测试

梦晨西风发自凹非寺量子位 | 公众号 QbitAI马来西亚#文爱

OpenAI公布下一代模子，o1之后径直o3！

文轩探花

“双12”直播举止终末一天，终于来了个大的，奥特曼本东谈主也再次现身直播间。

o3比拟o1最杰出的收获，一是顶尖技巧员竞赛CodeForces分数杰出2700，东谈主类杰出这个分数的咫尺只须不到200个。

二是在为AGI准备的测试ARC-AGI上分数从32%跃升到了75.7%、87.5%。

为什么有两个收获呢？

因为o3有低想考进度和高想考进度两种耕种。

ARC-AGI是Keras之父François Chollet发起的测试基准，典型题目为图形逻辑推理。

另一项最难数学测试EpochAI Frontier Math，包含最新未公开前沿题目。

此前对这项测试的第一印象是“可能难住AI好几年”。

o3比之前SOTA从2分提高到25分。

东谈主类专科数学家惩办其中一齐题目也要消费数小时到数天，当今o3只需要想考几分钟。

此次还公布了o3-mini，支柱低中高三种想考进度耕种。

主要展示了代码才气，低耕种下o3-mini和o1-mini差未几，高耕种还是杰出了o1郑再版。

参与o3-mini盘考的北大学友任泓宇，现场展示了新模子的编程才气。

他使用了很是版块的ChatGPT，称为ChatGPT α。

任务如下：

写一个Python剧本，在腹地为一个带有大文本框的HTML文献启动劳动器。当我在该框中输入文本并按下提交时，它应该将该代码请求发送到OpenAl o3-mini API ，使用medium reasoning_effort ，赢得生成的代码，将其保存到桌面上的临时文献中，然后在新的Python终局中奉行该文献。还有一些细节：不错在~/api_key中找到我的API密钥请在向API的请求中添加一些迥殊的指示，指定它只应复返莫得任何体式或Markdown的原始代码你将在Mac条记本电脑环境运转

o3-mini的想考经由用了38秒，然后代码秒出，一次运转到手。