999精品国内在线观看视频-日韩 中文字幕 在线视频-伊人久久中文字幕在线-少妇熟女激情一区二区三区-久久精品国产亚洲av水果派-91成人在线视频网-91久久久在线免费-国产综合一区二区三区-一区,二区av在线,亚洲天堂中文字幕91,欧美偷拍亚洲变态另类,国产精品久久久久久久hd

230個大模型在嬰幼兒認(rèn)知題上集體翻車!揭秘多模態(tài)大模型的核心知識缺陷_速看

來源:量子位

CoreCognition團隊 投稿

量子位 | 公眾號 QbitAI


(資料圖片)

一篇被Yann LeCun轉(zhuǎn)發(fā)的ICML 2025研究給了多模態(tài)大模型當(dāng)頭一棒——

大部分AI在復(fù)雜任務(wù)上表現(xiàn)很好,但在人類從小就會的基礎(chǔ)認(rèn)知能力上卻很拉垮。

研究者建了測評題庫CoreCognition,覆蓋在人類嬰幼兒階段即出現(xiàn)的12種核心認(rèn)知能力(如客體永恒、視角采擇、直覺物理、知覺恒常等),用來對模型進行系統(tǒng)性測試。

在CoreCognition基準(zhǔn)的1503道“經(jīng)典發(fā)展心理學(xué)測驗”上,230個主流模型系統(tǒng)暴露出對世界常識的“核心知識盲區(qū)”。

在歸一化準(zhǔn)確率對比中,多模態(tài)大模型在基礎(chǔ)核心認(rèn)知能力上普遍落后,差距往往達到兩位數(shù),即便規(guī)模更大也難以彌補。

這是否意味著MLLM(多模態(tài)大模型)的先天認(rèn)知結(jié)構(gòu)中,缺少那些支撐早期人類學(xué)習(xí)的基礎(chǔ)知識機制?

也就是說,它們是否缺乏“core knowledge”(核心認(rèn)知能力)?

構(gòu)建CoreCognition Benchmark

來自加州大學(xué)圣地亞哥分校、約翰霍普金斯大學(xué)、埃默里大學(xué)、北卡羅來納大學(xué)教堂山分校、斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué)等機構(gòu)的研究人員,花費一年時間構(gòu)造并開源了業(yè)界首個核心認(rèn)知基準(zhǔn)CoreCognition。

基準(zhǔn)圍繞發(fā)展心理學(xué)與皮亞杰分層框架,覆蓋從連續(xù)性到機械推理12 項核心認(rèn)知概念,共1503道多模態(tài)題目,每類≥95例,含圖像與視頻。

研究團隊在設(shè)計題目時遵循以下高標(biāo)準(zhǔn):

  • 判別性強

    不具備目標(biāo)核心知識的模型在邏輯上更易選擇錯誤選項。

  • 最小混淆

    題目盡量僅依賴待測概念完成推理,剔除與其他核心知識或外部能力的耦合,避免跨概念干擾。

  • 無文本捷徑

    所有題目必須聯(lián)合利用圖像與文本才能得出正確答案。

所有數(shù)據(jù)由12位具備認(rèn)知科學(xué)、計算機科學(xué)或統(tǒng)計學(xué)背景的高年級本科或研究生協(xié)作完成標(biāo)注與審核,經(jīng)過兩輪交叉驗證和Amazon Mechanical Turk人工校驗。

干預(yù)測試揭示“假理解”陷阱

為了進一步驗證模型是否真的掌握核心概念,研究團隊提出了Concept Hacking(概念干預(yù)) 方法:通過構(gòu)造“對照組”(control)與“干預(yù)組”(manipulated),故意在測試任務(wù)中反轉(zhuǎn)與核心知識相關(guān)的關(guān)鍵特征,但保持其余細節(jié)一致,檢測模型是否真正理解概念還是走捷徑。

例如其中的Intuitive Physics測試:

  • 原版題

    同時釋放兩顆小球,哪一個會先落地?考察基礎(chǔ)直覺物理(相同釋放高度、忽略空氣阻力時,自由落體等時到地)。

  • 孿生版

    保持大小不變,但改變釋放高度,用以檢驗?zāi)P褪欠裾嬲罁?jù)高度差/落地時間推斷,而非套用“同時落地”的固定模板。

  • 人類表現(xiàn)

    兩題均能作對,能根據(jù)高度改變及時更新判斷。

  • 模型表現(xiàn)

    原題作對(選C),孿生版仍沿用舊模式選C,直接翻車——暴露出對表面模板的依賴,而非對落體規(guī)律的真實理解。

五大關(guān)鍵發(fā)現(xiàn)

一、在與人類早期認(rèn)知直接相關(guān)的低層能力(如邊界感、連續(xù)性、客體永恒、空間性、視角采擇等)上,模型顯著落后于高層能力(如意向理解、工具使用、機械推理),與人類各層穩(wěn)定高分的模式明顯不同。這表明

當(dāng)前MLLMs在人類早期即具備的基礎(chǔ)“核心知識”上存在系統(tǒng)性短板。

二、關(guān)聯(lián)性矩陣顯示,高層能力族內(nèi)關(guān)聯(lián)較強,底層能力Permanence/Spatiality/Continuity與高層能力相關(guān)性普遍偏弱。說明模型缺乏人類由低到高的腳手架式認(rèn)知發(fā)展結(jié)構(gòu),模型的高級感知與推理并不是建立在基礎(chǔ)的認(rèn)知能力上的。這也能解釋為什么模型出現(xiàn)魯棒性缺陷。

三、研究團隊將三階段12個核心能力的得分與26個公開基準(zhǔn)做相關(guān)性分析,結(jié)果表明除Perspective和Intuitive Physics外,大多數(shù)核心能力與公開基準(zhǔn)(除ChartQA)及高層能力顯著正相關(guān)。這表明核心知識越強,上層任務(wù)越穩(wěn)。而Perspective和Intuitive Physics能力作為人類高級推理的基礎(chǔ)展現(xiàn)出的低相關(guān)性,與我們之前在關(guān)系矩陣?yán)锟吹降哪J揭恢拢@正是現(xiàn)有模型核心知識缺陷的直接證據(jù)。

四、基于230個模型擬合“規(guī)?!憩F(xiàn)”的回歸斜率顯示,低層能力隨規(guī)模提升改善顯著更少或幾乎不變;其中Perspective-taking甚至出現(xiàn)反向規(guī)模效應(yīng)(模型越大越差)。增加模型規(guī)模主要利好高層能力,對低層核心能力幫助有限甚至為負(fù)。

五、Concept Hacking實驗結(jié)果顯示,大模型相較小模型整體并未取得提升,部分情形甚至更差。這說明單靠擴規(guī)模不足以消除對捷徑的依賴,也難以獲得穩(wěn)健的核心知識。直觀上,模型并非“越大越懂”,而是越大越善于投機。

結(jié)合結(jié)果圖中的信息,模型可歸納為四類:

  • 核心知識型

    控制題與操縱題均表現(xiàn)良好(接近人類水平,但樣本占比極少),說明具備穩(wěn)健的核心概念理解與遷移。

  • 捷徑依賴型

    控制題得分高、操縱題顯著下降,提示主要依賴表面線索或訓(xùn)練相似性,缺乏對概念要素的因果把握。

  • 核心缺陷型

    控制題即低于或接近偶然水平,操縱題亦無穩(wěn)定收益,反映基礎(chǔ)“核心知識”不足。

  • 偶然型

    控制題與操縱題均近似隨機波動,整體不可依賴(更多體現(xiàn)噪聲與運氣)。

認(rèn)知指令帶來短期增益,但難以彌補底層缺口。

對比推理模型與其對應(yīng)非推理版本模型性能顯示,推理模型多數(shù)核心能力任務(wù)未見顯著提升,癥結(jié)不在“會不會用推理”,而在底層表征是否具備,即預(yù)訓(xùn)練階段對核心知識的覆蓋與結(jié)構(gòu)化不足。

與此同時,研究團隊發(fā)現(xiàn),引入認(rèn)知指令(在題目前明確提示相關(guān)概念,如perspective taking)可帶來約6%的即刻增益,提示模型內(nèi)部可能分布式存有相關(guān)線索,但缺少有效的檢索與調(diào)用機制。

然而,此類做法在真實場景中可獲得性與可用性受限,實際應(yīng)用往往無法提供如此明確的概念標(biāo)簽來引導(dǎo)模型。

在引人注目的“能寫會畫”之外,真正的智能首先取決于對世界最樸素規(guī)則的把握。

這項研究說明:參數(shù)堆疊并不等于理解,地基是否扎實才是關(guān)鍵。

與其一味追求“更大、更強”,不如換個起點:先把核心知識補齊,讓模型學(xué)會在變化、多樣與噪聲中保持一致的常識判斷與因果直覺。

簡單說就是:先長地基,再長樓層;規(guī)模是加法,核心認(rèn)知是乘法。

論文地址:https://arxiv.org/abs/2410.10855

Website:https://grow-ai-like-a-child.github.io/core-knowledge/

Dataset:https://huggingface.co/datasets/williamium/CoreCognition

標(biāo)簽: 認(rèn)知 能力 缺陷 核心 模型 嬰幼兒 人類

推薦

財富更多》

動態(tài)更多》

熱點

免费欧美午夜激情在线观看-国产精品久久久中文字幕-少妇人妻一区2区中文字幕-99精品视频在线观看免费播放 | 99麻豆久久久精品国产-国内精品久久久久伊人av-91精品国产综合久久久蜜臀粉嫩-中文字幕高清免费在线人妻 | 国产亚洲中文字幕一区二区-超碰成人天天干-九九热久久久久热久久-超碰人妻人妻超碰在线 | 国偷自产一区二区三区在线视频-日韩亚洲视频区-色婷婷中文字幕一区久久91-一本色道久久88综合亚洲精品密 | 国产精品久久久久久久白浆-91久久久久久视频盛宴-东京热人妻av一区二区三区-欧美日韩亚洲精品 | 久久99国产综合精品女人av-久久99国产精品久久99果冻传媒-久久久999com-日韩激情自拍偷拍 | 亚洲va国产va欧美精品88-91丨九色丨农村老熟女按摩-日韩限制级影院-97人妻超碰在线免费 | 超碰223天天操-亚洲中文不卡高清av-日本一区二区三区高清不卡-91久久久精品国产 | 99久久精品人妻一区二区三区-超碰在线视频免费97-在线免费观看在线免费观看av-精品日本一区二区三区免费 | 国内精品伊人久久久av高清影-91久久国产精品小视频-内射中文字幕精品电影-熟女人妻中文字幕久久久边 | 欧美日韩国产精品一-蜜桃一区二区三区视频免费观看-精品久久久久久久99蜜桃-久久久久久久蜜桃hd 天天日天天操天天干天天摸-麻豆高清在线视频免费观看-日韩免费a视频-91人人妻人人澡人 | 99精品视频一区二区三-射射爱天天射天天干天天操-麻豆精品一级片在线观看-亚洲制服人妻另类小说 超碰av中文在线-国产青青操视频在线-在线观看日韩午夜av-精品丰满人妻无套内射 | 国产特黄特色aaa-国产精品久久久久久码-国产精品成人免费观看视频-久久久精彩免费视频 | 中文字幕成人亚洲精品-久久精品国产亚洲a∨成人-日韩有码免费在线观看视频-久久中文字幕亚洲精品最新 | 欧美不卡一区二区视频-欧美 日韩 国产 第一页-日本va欧美va欧美va-日韩欧美一区二区三区在线 | 欧美亚日韩一级黄色a视频-国产成人精选在线视频-国产精品久久麻豆免费在线观看-人妻9999久久久久 | 97超级免费在线视频-av日韩在线观看中文字幕-日本三区不卡高清更新二区-亚洲国产成人va在线观看天堂 | 亚洲中文字幕不卡的-999视频国产精品-人妻少妇精品久久一区二区三区免费-欧美日韩精品久久久 | 超碰精品亚洲资源网-欧美日韩三区在线播放-久久热在线观看视频-国产拍揄自揄精品视频麻豆 | 国产aⅴ国产av在在免费线观看-精品乱码一区二区三区视频-中文字幕久久亚洲久久中文字幕-日韩精品视频在线免费观看 | 欧美激情综合在线三级-国产亚洲一区二区三区,-在线日韩av电影免费看-乱码人妻一区二区三区四区 | 成人精品久久久免费看一区二区-日韩激情啪啪综合-成人国产av精品免费在线观看-欧美国产黄片在线 精品视频蜜桃久久久久-日韩美免费观看视频-精品99国产乱码久久久久密-久久久久久亚洲女同第一区暖暖 | 超碰在线手机播放-国产精品久久99999-久久99国产精品成人含羞草-1024人妻精品一区二区 | 欧美最猛黑人xxxx黑人猛-日韩精品极品视频在-欧美日韩国产精品酒店-变态另类视频一区二区三区 | 婷婷综合尤物精品国产-国产精品久久久一级-美女视频一区二区3区-中文字幕av最新地址 | 久久久91人妻精品一区二区三区网址-国产免费观看久久黄av涩av-日韩激情小说在线-久久99综合精品国产毛片 | 国产精品成人在线网站-国产一区二区三区小向美奈子-99精品久久久久久久久久久久-日韩精品人妻免费视频 | 天堂网av伊人久久-久久精品视频在线观看一区二区-熟女人妻精品综合久久-久久精品99视频免费观看 日韩精品欧美青色-日韩精品在线免费观看网站-日韩av激情四射-av中文字幕免费播放 | 激情综合色综合久久丁香-精品久久久久女人18-av久久伊人精品中文字幕-久久久久人妻一区二区三区vr2 | 中文字幕熟女裸体激情-av成人天堂在线电影-久久久久9999免费-日韩不卡精品在线观看 | 国产粉嫩蜜臀av一区二区三区-久久亚洲免费一区二区-在线日韩av综合网-久久妻中文字幕 | 国产综合亚洲欧美日韩一区二区-日韩精品人妻中文字幕乱码-日韩av资源在线观看-国产精品久久久久久久懂色 | 国产韩国日本一区二区-亚洲激情日韩av-亚洲 制服 人妻 91-欧美性久久久久久久久久久精品 | 久久天堂网在线观看-日韩极品美女小视频-亚洲av成人精品网站在线播放-99久久国语露脸精品国产麻豆 | 91久久综合亚洲鲁鲁五月天-精品国产乱子伦av-五月激情婷婷丁香花-av中文字幕免费在线观看 无需 | 中文字幕一区二区三三-操日本老女人的逼-白木优子中文字幕在线-日韩亚洲免费视频 | 国产乱码有码一区二区三区-久久国产亚洲精品av麻豆-99热精品国产在线-中文字幕乱交免费视频 | 丰满人妻精品一区二区在线-久久久艹视频在线观看-日韩av中文字幕手机在线观看-国产老熟女一区二区三区 | av日韩一区中文字幕-91免费影片在线观看-国产精品99久久久久久人红楼-日韩 精品 欧美 啪啪啪啪啪啪 | 国产乱码有码一区二区三区-久久国产亚洲精品av麻豆-99热精品国产在线-中文字幕乱交免费视频 | 天天想太多脑袋感觉很紧绷怎么办-99久久国产日韩欧美-日韩欧美一区二区在线-麻烦视频一区二区三区 |