九游娱乐 - 最全游戏有限公司-j9九游会官方还铭刻前边 o3 获利下落趋势倏得变大的位置吧-九游娱乐 - 最全游戏有限公司

j9九游会官方还铭刻前边 o3 获利下落趋势倏得变大的位置吧-九游娱乐 - 最全游戏有限公司

发布日期:2026-02-14 11:40  点击次数:183

j9九游会官方还铭刻前边 o3 获利下落趋势倏得变大的位置吧-九游娱乐 - 最全游戏有限公司

o3 在超难推理任务 ARC-AGI 上的获利,属实给东说念主类带来了不少触动。

但有东说念主特意筹办了它不会作念的题之后,有了更预料的发现——

o3 之是以不会作念这些题,原因可能不是因为太难,而是题看法畛域太大了。

来自英国的 ML 工程师 Mikel Bober-Irizar(不妨叫他米哥),对 ARC 题目进行了致密不雅察。

效果米哥发现,题目中的网格畛域越大,大模子的久了也就越差。

而且不仅是 o3,o1 和 o1 mini,还有近邻的 Claude,王人出现了这么的兴盛。

米哥的这项筹办,引起了东说念主们对大模子责任机制的好多推断。

宇宙首位全职领导词工程师Riley Goodside看到后,也觉得这是一项很好的筹办。

大模子被困在了网格畛域上

照旧先浮浅转头一下 ARC 挑战,题目带有色块的网格阵列(以文本样貌表述,用数字代表样貌),大模子需要不雅察每说念题目中 3 个输入 - 输出示例,然后左证限定填充新的空缺网格。

米哥发现,在 ARC 挑战中,畛域越大,也便是网格的数目越多,大模子的久了也就越差。

o3 也逃不外这么的魔咒,但比拟于其他模子,o3 久了的明显下落出现得更晚,大致在网格数目达到 1024 个之后(请记着这个位置,后头还会讲到)。

为了进一步考证这个发现,米哥还用 o1-mini 进行了推行测试。

下图当中,傍边两栏的题目乍一看上去好像没什么区别,但在右边,米哥对网格进行了细粒度的切割,原本的一个格子被切成了 4(2 × 2)个。

效果原本能作念对的题,切成小块之后,o1-mini 还真就不灵了。

进一景色,米哥还对 ARC 数据集会的畛域散播进行了统计,效果刚好是畛域在 1024 个像素的题目数目最多。

还铭刻前边 o3 获利下落趋势倏得变大的位置吧,刚好便是在 1024 左近。

米哥觉得,这便是 o3 在 ARC 挑战上取得优异获利的膺惩要素,而其他模子获利欠安,是因为对应的小畛域试题占比较少。

是以在米哥看来,ARC 挑战并不可饱和反应大模子真实的推理才气——有不少模子王人被低估,o3 则是被高估了。

ARC 挑战不恰当大模子?

那么,为什么题目中网格数目一多,大模子的久了就不好了呢?

先来看米哥的分析。

米哥援用了纽约大学的一项筹办效果(arXiv:2409.01374),这项筹办发现东说念主类在挑战这么的问题时并不会出现这种兴盛。

如若在东说念主类和模子之间作念个比较,那么在畛域较小时 o3 的久了不错说完胜东说念主类,但畛域较大时优越方就造成了东说念主类。

这讲明,大模子在贬责此类问题时,想考形态和东说念主类依然存在隔离。

天然,大模子在挑战 ARC 时看到的不是图像,而是用数字代表的矩阵,这是了然于目的,但隔离还不啻于此。

东说念主类在面临 ARC 问题时,即使是用这种数字矩阵来暗示,也能够看出视觉信息,交融其中的位置关连。

在空间中,ARC 是一个二维问题,需要跨行和列进行推理,但大模子在处理 token 时是以一维门径进行的。

这意味着,大模子进行跨列推理时,需要组合较长的高下文信息。

而跟着网格变得更大,模子需要对更长的高下文进行推理,何况必须对相距较远的数字进行组合和推理。

米哥之前还是和剑桥大学高等筹办员 Soumya Banerjee 此前进行的一项筹办(arXiv:2402.03507)标明,通过对矩阵进行 90 度旋转,让模子分裂基于行和列进行推理,比径直作念题获利升迁了一倍。

是以米哥觉得,是不雅察问题的维度影响了大模子的获利,ARC 这种任务并不恰当大模子。

他还暗示在 NeurIPS 上听到了一个很好的类比——

将二维的 ARC 任务交给大模子,就像盼望东说念主类在四维空间中进行推理。

同期网友们还指出,天然本体上触及了维度各别,但视觉依然是一个膺惩要素。

联想一下,如若东说念主莫得视觉才气,单纯依靠听或其他形态取得对于其中网格的信息,也很难径直构建出二维的矩阵。

不外说到这,即便模子领有"视觉"才气,亦然将视觉信息改变为 Token,和东说念主类的视觉也巧合一样。

网友觉得,的确的视觉需要能够处理并行输入的信息,而不是逐一 Token 的串行输入,二进制 IO 数据流猛烈是一种贬责有狡计。

One More Thing

左证 ARC 挑战官方的说法,ARC-AGI 的下一代 ARC-AGI-2 行将推出。

早期测试标明,其将对 o3 组成环节挑战——

即使在高狡计量模式下,o3 的得分也可能会镌汰到 30% 以下(而智慧东说念主仍然能够得分跨越 95%)。

—  完  —

点这里� � 关爱我,铭刻标星哦~

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日再会 ~  



相关资讯
热点资讯
  • 友情链接:

Powered by 九游娱乐 - 最全游戏有限公司 @2013-2022 RSS地图 HTML地图