马来西亚#文爱 o3来了!编程才气置身东谈主类天下前200,破解陶哲轩说难的数学测试
发布日期:2024-12-22 07:38 点击次数:128梦晨 西风 发自 凹非寺量子位 | 公众号 QbitAI马来西亚#文爱
OpenAI公布下一代模子,o1之后径直o3!
文轩 探花“双12”直播举止终末一天,终于来了个大的,奥特曼本东谈主也再次现身直播间。
o3比拟o1最杰出的收获,一是顶尖技巧员竞赛CodeForces分数杰出2700,东谈主类杰出这个分数的咫尺只须不到200个。

二是在为AGI准备的测试ARC-AGI上分数从32%跃升到了75.7%、87.5%。
为什么有两个收获呢?
因为o3有低想考进度和高想考进度两种耕种。

ARC-AGI是Keras之父François Chollet发起的测试基准,典型题目为图形逻辑推理。

另一项最难数学测试EpochAI Frontier Math,包含最新未公开前沿题目。
此前对这项测试的第一印象是“可能难住AI好几年”。

o3比之前SOTA从2分提高到25分。
东谈主类专科数学家惩办其中一齐题目也要消费数小时到数天,当今o3只需要想考几分钟。

此次还公布了o3-mini,支柱低中高三种想考进度耕种。
主要展示了代码才气,低耕种下o3-mini和o1-mini差未几,高耕种还是杰出了o1郑再版。

参与o3-mini盘考的北大学友任泓宇,现场展示了新模子的编程才气。

他使用了很是版块的ChatGPT,称为ChatGPT α。
任务如下:
写一个Python剧本,在腹地为一个带有大文本框的HTML文献启动劳动器。当我在该框中输入文本并按下提交时,它应该将该代码请求发送到OpenAl o3-mini API ,使用medium reasoning_effort ,赢得生成的代码,将其保存到桌面上的临时文献中,然后在新的Python终局中奉行该文献。还有一些细节:不错在~/api_key中找到我的API密钥请在向API的请求中添加一些迥殊的指示,指定它只应复返莫得任何体式或Markdown的原始代码你将在Mac条记本电脑环境运转
o3-mini的想考经由用了38秒,然后代码秒出,一次运转到手。
这个演示可能不太直不雅,可是看得没去现场的另一位OpenAI盘考员Aidan Clark直出汗。

回想一下,即是o3-mini用38秒给我方写了一个UI,通过API调用“我方”。
后续演示中,任泓宇条目o3-mini在这个UI中编写并奉行一个剧本,来评估“它我方”在低想考进度下、在GPQA数据集上的进展。

剧本正确运转了评估,复返成果数值61.62%,与厚爱评估成果基本一致。

是不是有少许科幻的嗅觉了。

可惜呐~ o3和o3-mini咫尺齐是早期预览景色,只给看不给玩。
安全盘考者不错在OpenAI官网肯求早期走访权限。
北大学友、GPT-4o中枢开荒者现身直播间
这场直播中另外值得温雅的,即是新出场的北大学友任泓宇了(最左边)
他旧年刚加入OpenAI担任盘考科学家,主要负责话语模子稽查,是GPT-4o的中枢开荒者、GPT-Next技俩构成员。

直播中最新自大,九月份的o1-mini他也有参与,证据了此前别传中o1-mini主要由三位华东谈主负责(另两位是Kevin Lu和Jiahui Yu)
任泓宇博士毕业于斯坦福大学。加入OpenAI之前,他在Apple、Google、NVIDIA 和Microsoft均有盛大盘考实习资格。

One More Thing
笑死,终末一天顶着圣诞帽的“青蛙”径直被摆到了最前边:

其实,之前每一场它们齐在,不外是被摆在了后头的架子上,况且数目随直播天数增多。
昨天是直播第11天,圣诞帽“青蛙”是酱婶儿的:

你数出来有若干圣诞“青蛙”了吗?