久久99性xxx老妇胖精品,日韩三级一区,色婷婷久久久,亚洲精品欧美

登錄
首頁 > 理想 > 最強(qiáng)大模型的視覺能力不如6歲小孩

最強(qiáng)大模型的視覺能力不如6歲小孩

發(fā)布時(shí)間:2026-01-25 15:20:16 發(fā)布用戶: xiangyou

誰敢想?

視覺推理這一塊,大模型現(xiàn)在還嫩得像個(gè)3歲小孩。

來自UniPat AI、xbench、阿里、月之暗面、階躍星辰等多家研究機(jī)構(gòu)的最新研究顯示:

BabyVision視覺推理benchmark上,當(dāng)前表現(xiàn)最強(qiáng)的Gemini 3 Pro Preview也只是小勝三歲兒童,跟六歲兒童仍有20%的差距。

與成年人94.1的水平相比,更是天壤之別。

更關(guān)鍵的是,Gemini 3 Pro Preview已經(jīng)是當(dāng)前一眾模型中的“天花板”。

其他前沿模型,包括GPT-5.2Claude 4.5 OpusGrok-4等,整體表現(xiàn)甚至不如三歲小孩。

這一扎心結(jié)論,無疑又給當(dāng)前基于VLA(M)的具身智能潑了盆冷水。

畢竟,一個(gè)視覺能力尚未達(dá)到三歲兒童水平的AI,很難被指望在真實(shí)物理世界中穩(wěn)定、安全地協(xié)助人類。

也正是在這個(gè)意義上,BabyVision還給出了另一種視角:

要真正推進(jìn)多模態(tài)智能,未來的模型必須從底層重建視覺能力,而不是繼續(xù)依賴將視覺問題翻譯成語言來“繞行”。

視覺推理的語言化瓶頸

在完整的評(píng)估中,研究對(duì)比了開源和閉源模型的表現(xiàn):

在閉源模型中: Gemini 3-Pro-Preview以49.7%的得分領(lǐng)跑,隨后是GPT-5.2 (34.4%) 和豆包-Seed-1.8 (30.2%)。

其余模型表現(xiàn)則不盡人意:Qwen3-VL-Plus 19.2%,Grok-4 16.2%,Claude-4.5-Opus 14.2%。

在開源模型中,表現(xiàn)最好的是Qwen3VL-235B-Thinking,總分達(dá)到22.2%

其中,Qwen3VL的Thinking版本優(yōu)于Instruct版本,這表明顯示顯式推理能減輕視覺不確定性。

此外,即使是最大的開源模型,仍無法與頂尖閉源系統(tǒng)匹敵。

那么,問題來了。

為什么在HLE、IMO等高難度任務(wù)中展現(xiàn)出博士級(jí)“智商”、甚至能解數(shù)學(xué)難題的大模型,卻會(huì)在一些看似簡(jiǎn)單的“找不同”任務(wù)中頻頻翻車?

先說結(jié)論:當(dāng)前的多模態(tài)大模型,通常是在推理前,先將視覺輸入轉(zhuǎn)化為語言表征來處理

這種做法充分利用了大型語言模型強(qiáng)大的推理能力,但也引入了一個(gè)根本性的限制:

凡是無法被語言準(zhǔn)確表達(dá)的視覺信息,都會(huì)在這一過程中被丟失。

例如,圖像中“一輛紅色的汽車”可以被輕松轉(zhuǎn)寫為文字;但更細(xì)粒度的幾何信息,如邊界的精確曲率、交叉點(diǎn)的具體位置、相對(duì)空間關(guān)系的微小變化,卻很難被語言忠實(shí)描述。

而正是這些“不可描述”的視覺特征,構(gòu)成了BABYVISION任務(wù)的核心難點(diǎn),也因此成為當(dāng)前頂尖多模態(tài)模型普遍折戟的地方。

具體來說,BabyVision將視覺推理拆解為4個(gè)核心能力維度:

細(xì)粒度辨別(Fine-grained Discrimination):檢測(cè)細(xì)微的視覺差異

視覺追蹤(Visual Tracking):追蹤路徑、線條和運(yùn)動(dòng)軌跡

空間感知(Spatial Perception):理解三維結(jié)構(gòu)與空間關(guān)系

視覺模式識(shí)別(Visual Pattern Recognition):識(shí)別視覺中的邏輯與幾何規(guī)律

基于上述能力維度,研究總結(jié)出當(dāng)前MLLM面臨的四個(gè)經(jīng)典視覺核心挑戰(zhàn),具體如下:

非言語性精細(xì)細(xì)節(jié)的缺失

首先是非言語性精細(xì)細(xì)節(jié)的缺失,這些精細(xì)細(xì)節(jié)往往難以被語言精準(zhǔn)地描述。

比如在面對(duì)一個(gè)小的偏移、特定的邊界曲線,或者僅僅是一個(gè)像素的差異時(shí),多模態(tài)大模型(MLLMs)往往會(huì)把這些截然不同的選項(xiàng)當(dāng)作差不多的來處理。

以表現(xiàn)最好的Gemini 3 Pro Preview為例,在下面的找拼圖任務(wù)中,它就錯(cuò)誤地選擇了D選項(xiàng)

(正確答案:B)

在Gemini的推理過程中,它首先將形狀轉(zhuǎn)化為文字描述,再簡(jiǎn)化為粗略特征(如數(shù)量、拓?fù)浣Y(jié)構(gòu)),然后在語言空間中對(duì)比候選選項(xiàng)。

相比之下,人類直接通過形狀匹配瞬間完成任務(wù)。人類的大腦會(huì)對(duì)每個(gè)候選選項(xiàng)進(jìn)行平移和旋轉(zhuǎn),檢查邊界是否對(duì)齊,整個(gè)過程無需借道文字,直接由幾何驅(qū)動(dòng)。

所以,這里的關(guān)鍵不在于邏輯的難度,而在于高保真感知的缺失

流形一致性(Manifold Identity)的丟失

此外,研究還發(fā)現(xiàn),多模態(tài)大模型難以在長距離空間中,可靠地維持感知的一致性。

比如,在下面的連線任務(wù)中,Gemini 3 Pro Preview再度失敗,錯(cuò)誤地將塑料瓶連在了綠色垃圾桶中,以及將蘋果核連在了藍(lán)色垃圾桶中,

(正確答案:塑料瓶-藍(lán)、試卷-黃,蘋果核-綠)

研究發(fā)現(xiàn),Gemini在解題時(shí),通常會(huì)把一條連續(xù)的曲線拆解成一連串簡(jiǎn)單指令,比如向左、向右、向上、向下。

但問題在于,一旦出現(xiàn)交叉點(diǎn),這種拆解方式就會(huì)讓路徑變得模糊,很容易走岔。

由于模型并沒有在腦子里“真正記住”那條曲線的樣子,它在經(jīng)過交叉點(diǎn)后就可能無意中換到另一條線上。

這種錯(cuò)誤對(duì)人類來說幾乎一眼就能看出來,但當(dāng)信息被壓縮成文字后,反而很難察覺。

相比之下,人類一般會(huì)直接盯住一條線,一路跟到終點(diǎn)。而這種能力在人類幼兒時(shí)期就已經(jīng)很自然地具備了。

空間想象力

研究發(fā)現(xiàn)的第三個(gè)普遍挑戰(zhàn)是“空間想象力”,也就是從二維圖像中構(gòu)建穩(wěn)定的三維內(nèi)部表征,并在保持結(jié)構(gòu)不變的前提下,對(duì)其進(jìn)行心理變換——

比如切換視角、投影輪廓,或推斷被遮擋的體積。

舉例來說:給你一個(gè)視圖,讓你想象如果從側(cè)面看,它應(yīng)該是什么樣子。

在這一任務(wù)中,Gemini 3 Pro Preview仍然選擇了錯(cuò)誤的C選項(xiàng)。

(正確答案:A)

在 Gemini 的推理過程中,模型會(huì)先將視覺場(chǎng)景轉(zhuǎn)化為語言摘要,用文字描述物體,再基于這些文字去“猜測(cè)”二維特征。

但問題也正出在這里——文字?jǐn)⑹霾⒉荒苤覍?shí)地表示空間狀態(tài)

一旦精確的圖像被壓縮成模糊的文本摘要,模型就很容易犯下可預(yù)期的錯(cuò)誤:漏掉被遮擋的積木、數(shù)錯(cuò)層數(shù),或使用了錯(cuò)誤的三維投影關(guān)系。

相比之下,人類可以直接在腦海中從指定方向“轉(zhuǎn)動(dòng)”物體并進(jìn)行對(duì)比,整個(gè)過程幾乎不需要語言的參與。

視覺模式歸納

第四個(gè)挑戰(zhàn)是視覺模式歸納:也就是從少量視覺示例中,總結(jié)出通用的變化規(guī)則,并把它應(yīng)用到新的輸入上。

在下面這個(gè)找規(guī)律的問題中,QWEN3-VL-PLUS選擇了錯(cuò)誤的B選項(xiàng)。

(正確答案:C)

模型在這類任務(wù)中常見的做法,并不是理解“發(fā)生了什么變化”,而是去數(shù)屬性。

比如,顏色有多少、形狀有幾個(gè)、元素是否相似。它會(huì)描述源圖像、描述目標(biāo)圖像,然后試圖在文本層面把兩者“對(duì)上”。

相較之下,人類在處理這類問題時(shí),通常會(huì)直接對(duì)比前后的視覺示例,在腦中形成一個(gè)簡(jiǎn)單的“因果圖”:

哪個(gè)形狀包含哪個(gè)形狀?誰是框架,誰是內(nèi)容?這些角色在從輸入到輸出的過程中是如何被重新分配的?

正是這種對(duì)視覺關(guān)系進(jìn)行抽象推理的能力——而非簡(jiǎn)單的識(shí)別——構(gòu)成了當(dāng)前模型架構(gòu)仍難以跨越的一道門檻。

基于RLVR與生成式建模的視覺推理

那么, 既然基于文本的視覺推理(如 VLM)存在天然局限,那么有沒有辦法對(duì)這一點(diǎn)加以改善?

對(duì)此,研究給出了兩個(gè)方向:基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(Reinforcement Learning with Verifiable Rewards ,RLVR)以及基于生成模型的視覺推理。

首先來看RLVR。

具體而言,研究以Qwen3-VL-8B-Thinking作為基座模型,并在其上進(jìn)行RLVR微調(diào)。

實(shí)驗(yàn)表明,在完成RLVR微調(diào)后,模型整體準(zhǔn)確率提升了約4.8個(gè)百分點(diǎn)。從任務(wù)子類分布來看,大多數(shù)類別均出現(xiàn)不同程度的提升。

這和在Qwen推理模型中得到的洞見一致:一旦提取出視覺信號(hào),顯式的中間推理可以部分抵消視覺上的不確定性。

接下來是生成模型方法

既然以語言承載視覺推理存在天然的“信息失真”,模型能否效仿人類,通過“視覺重構(gòu)”——

即在像素空間內(nèi)直接演算(如繪制連線或補(bǔ)全圖案)來完成推理。

基于這一認(rèn)識(shí),研究推出了BabyVision-Gen,評(píng)估了3種前沿視覺生成模型:NanoBanana-Pro、GPT-Image-1.5和Qwen-Image-Edit在其之上的表現(xiàn)。

(注:BabyVision-Gen從全量基準(zhǔn)中篩選出280道適合生成式交互的題目,要求模型直接輸出圖像或視頻流來表達(dá)解題過程)

實(shí)驗(yàn)結(jié)果顯示:NanoBanana-Pro表現(xiàn)最優(yōu),準(zhǔn)確率達(dá)18.3%;而GPT-Image-1.5與Qwen-Image-Edit分別為9.8%和4.8%。

雖然成功率仍然不高,但研究認(rèn)為,NanoBanana-Pro與Sora-2等模型展現(xiàn)出了顯式視覺思維,能夠沿邏輯路徑生成物理軌跡。

此外,在相似的字母中找不同的任務(wù)里,基于生成式的方法也表現(xiàn)出了一定的視覺思維能力。

這里的失誤也表明:?jiǎn)渭兊纳赡芰Σ⒉坏韧趪?yán)密的推理,生成過程還必須由穩(wěn)健的視覺語義理解(Visual Understanding)進(jìn)行引導(dǎo)。

由此,研究繞過“語言瓶頸”的統(tǒng)一架構(gòu),揭示了一個(gè)關(guān)鍵的研究趨勢(shì):將生成模型轉(zhuǎn)化為原生多模態(tài)推理器。

相比于傳統(tǒng)的MLLM強(qiáng)行將視覺信號(hào)壓縮成文本,像Bagel這樣的統(tǒng)一架構(gòu),能夠在推理過程中保留高保真的視覺表征。

這種架構(gòu)允許模型在視覺空間內(nèi)進(jìn)行“顯式思考”——通過勾勒中間步驟、突出關(guān)鍵區(qū)域或?qū)崟r(shí)繪制軌跡來解析問題。

同時(shí),像Sora 2和Veo 3等模型在建模物理動(dòng)力學(xué)與空間關(guān)系的能力上,進(jìn)一步支持了“生成本身即是推理的一種高級(jí)形式”這一觀點(diǎn)。

Copyright 2018-2026 趣玩多 版權(quán)所有
久久99性xxx老妇胖精品,日韩三级一区,色婷婷久久久,亚洲精品欧美
久久精品青草| 欧美激情视频一区二区三区免费| 欧美色综合网| 日韩中文字幕1| 久热re这里精品视频在线6| 亚洲精品电影| 妖精视频成人观看www| 亚洲欧洲日本mm| 999国产精品视频| 夜鲁夜鲁夜鲁视频在线播放| 国产91在线精品| 日韩欧美在线中字| 久久久久中文| 欧美jjzz| 久久最新视频| 青青在线精品| 国产精品亲子伦av一区二区三区 | 香蕉精品久久| 久久精品在线| 久久国产精品久久w女人spa| 亚洲一区二区三区高清| 免费看的黄色欧美网站| 蜜芽一区二区三区| 欧美一级久久| 久久永久免费| 天堂av在线| 欧美日韩国产一区精品一区| 国产一区导航| 日韩国产在线观看| 国产精品2023| 正在播放日韩精品| 99久久久国产精品美女| 一区在线免费| 综合干狼人综合首页| 日韩黄色在线观看| 国产免费播放一区二区| 国产一区国产二区国产三区| 久久久久欧美精品| 亚洲啊v在线免费视频| 嫩呦国产一区二区三区av| 日韩视频网站在线观看| 美女精品在线观看| 国产精品成人自拍| 99成人在线视频| 日韩专区视频网站| 国产 日韩 欧美 综合 一区| 在线日韩欧美| 日本不卡在线视频| 国产精品国产三级国产在线观看| 神马午夜久久| 亚洲人成精品久久久| 国产激情久久| 伊人影院久久| 欧美精品中文| 日本精品在线中文字幕| 日韩在线观看一区二区三区| 欧美丰满日韩| 色综合视频一区二区三区日韩 | 国产美女久久| 久久久成人网| 日韩综合一区二区三区| 欧美国产美女| 蜜桃av一区二区在线观看| 麻豆久久一区二区| 亚洲精品1区| 精品一区视频| 蜜臀av性久久久久蜜臀aⅴ四虎| 高清一区二区三区| 久久中文字幕导航| 亚洲欧美日本国产 | 国产亚洲精品美女久久| 夜鲁夜鲁夜鲁视频在线播放| 日韩一区二区三区精品视频第3页| 国产传媒av在线| 久久精品72免费观看| 另类激情亚洲| 日韩和的一区二在线| 美女黄网久久| 美女福利一区二区三区| 综合国产视频| 99精品综合| 欧美国产专区| 中文无码日韩欧| 婷婷综合六月| 久久免费精品| 亚州av一区| 自拍日韩欧美| 综合日韩av| 精品国产日韩欧美精品国产欧美日韩一区二区三区 | 亚洲性色av| 狠狠色综合网| 日韩精品首页| 久久精品青草| 国产精品视频一区视频二区| 视频福利一区| 久久久久伊人| 日韩久久电影| 亚洲涩涩在线| 日本va欧美va精品发布| 免播放器亚洲| 老司机免费视频一区二区三区| 香蕉久久夜色精品国产| 99国产精品99久久久久久粉嫩| 日韩中文首页| 久久99久久久精品欧美| 久久久久99| 国产精品最新自拍| 男女男精品网站| 亚洲成人三区| 91精品精品| 国产精品99免费看| 成人在线视频免费| 日韩在线精品| 国产日韩欧美在线播放不卡| 国产高清精品二区| 精品中文在线| 美女毛片一区二区三区四区最新中文字幕亚洲 | 国产亚洲观看| 国内激情久久| 欧美极品中文字幕| 欧美精品一二| 亚州av乱码久久精品蜜桃| 日韩午夜av| 麻豆91精品视频| 久久精品国产99国产| 日韩中文字幕无砖| 亚洲+小说+欧美+激情+另类| 久久午夜精品| 在线一区电影| 亚洲男人在线| 欧美国产小视频| 久久精品国内一区二区三区水蜜桃| 久久永久免费| 亚洲天堂av资源在线观看| 国产欧美午夜| 亚洲精品在线a| 日本免费一区二区视频| 婷婷亚洲五月| 视频一区二区欧美| 亚洲欧美日韩一区在线观看| 黄色不卡一区| 国产真实久久| 黄色日韩精品| 99久久精品网| 亚洲一卡久久| 免费日韩视频| 亚洲精品少妇| 亚洲精品大片| 日韩精品一级| 国产麻豆一区二区三区精品视频| 日韩va欧美va亚洲va久久| 欧美日韩1区| 国产精品成人一区二区网站软件| 精品国内亚洲2022精品成人| 久久精品国产网站| 日韩深夜视频| 亚洲精品网址| 久久高清免费| 蜜乳av另类精品一区二区| 日本不卡中文字幕| 国产精品亚洲成在人线| 青草av.久久免费一区| 丝袜美腿成人在线| 免费视频一区二区三区在线观看 | 免费高清在线一区| 综合日韩在线| 国产亚洲一区| 97精品国产一区二区三区| 高清在线一区| 国产专区一区| 最新国产精品久久久| 国产欧美日韩综合一区在线播放| 精品视频一区二区三区四区五区 | 69堂精品视频在线播放| 欧美国产不卡| 麻豆精品在线播放| 欧美性感美女一区二区| 久久夜色精品| 国产精品调教视频| 91精品亚洲| 日本欧美在线| 中文在线资源| 国产精品色婷婷在线观看| 99精品视频在线| 日韩av不卡一区二区| 天堂√8在线中文| 日本一不卡视频| 日本美女一区| 日本少妇精品亚洲第一区| 欧美13videosex性极品| 日韩手机在线| 日韩精品一区二区三区免费观看| 亚洲精品在线二区| 人在线成免费视频| 欧美影院精品| 亚洲国产一区二区在线观看 | 久久国产电影| 国产日韩欧美中文在线| 五月婷婷亚洲| 成人午夜网址|