国内精品久久久久伊人av_欧美日韩亚洲系列_午夜欧美大片免费观看_欧美日韩综合不卡

深圳熱線

每日消息!230個大模型在嬰幼兒認知題上集體翻車!揭秘多模態大模型的核心知識缺陷

2025-10-10 11:49:15 來源:量子位

CoreCognition團隊 投稿

量子位 | 公眾號 QbitAI


(資料圖)

一篇被Yann LeCun轉發的ICML 2025研究給了多模態大模型當頭一棒——

大部分AI在復雜任務上表現很好,但在人類從小就會的基礎認知能力上卻很拉垮。

研究者建了測評題庫CoreCognition,覆蓋在人類嬰幼兒階段即出現的12種核心認知能力(如客體永恒、視角采擇、直覺物理、知覺恒常等),用來對模型進行系統性測試。

在CoreCognition基準的1503道“經典發展心理學測驗”上,230個主流模型系統暴露出對世界常識的“核心知識盲區”。

在歸一化準確率對比中,多模態大模型在基礎核心認知能力上普遍落后,差距往往達到兩位數,即便規模更大也難以彌補。

這是否意味著MLLM(多模態大模型)的先天認知結構中,缺少那些支撐早期人類學習的基礎知識機制?

也就是說,它們是否缺乏“core knowledge”(核心認知能力)?

構建CoreCognition Benchmark

來自加州大學圣地亞哥分校、約翰霍普金斯大學、埃默里大學、北卡羅來納大學教堂山分校、斯坦福大學、卡內基梅隆大學等機構的研究人員,花費一年時間構造并開源了業界首個核心認知基準CoreCognition。

基準圍繞發展心理學與皮亞杰分層框架,覆蓋從連續性到機械推理12 項核心認知概念,共1503道多模態題目,每類≥95例,含圖像與視頻。

研究團隊在設計題目時遵循以下高標準:

  • 判別性強

    不具備目標核心知識的模型在邏輯上更易選擇錯誤選項。

  • 最小混淆

    題目盡量僅依賴待測概念完成推理,剔除與其他核心知識或外部能力的耦合,避免跨概念干擾。

  • 無文本捷徑

    所有題目必須聯合利用圖像與文本才能得出正確答案。

所有數據由12位具備認知科學、計算機科學或統計學背景的高年級本科或研究生協作完成標注與審核,經過兩輪交叉驗證和Amazon Mechanical Turk人工校驗。

干預測試揭示“假理解”陷阱

為了進一步驗證模型是否真的掌握核心概念,研究團隊提出了Concept Hacking(概念干預) 方法:通過構造“對照組”(control)與“干預組”(manipulated),故意在測試任務中反轉與核心知識相關的關鍵特征,但保持其余細節一致,檢測模型是否真正理解概念還是走捷徑。

例如其中的Intuitive Physics測試:

  • 原版題

    同時釋放兩顆小球,哪一個會先落地?考察基礎直覺物理(相同釋放高度、忽略空氣阻力時,自由落體等時到地)。

  • 孿生版

    保持大小不變,但改變釋放高度,用以檢驗模型是否真正依據高度差/落地時間推斷,而非套用“同時落地”的固定模板。

  • 人類表現

    兩題均能作對,能根據高度改變及時更新判斷。

  • 模型表現

    原題作對(選C),孿生版仍沿用舊模式選C,直接翻車——暴露出對表面模板的依賴,而非對落體規律的真實理解。

五大關鍵發現

一、在與人類早期認知直接相關的低層能力(如邊界感、連續性、客體永恒、空間性、視角采擇等)上,模型顯著落后于高層能力(如意向理解、工具使用、機械推理),與人類各層穩定高分的模式明顯不同。這表明

當前MLLMs在人類早期即具備的基礎“核心知識”上存在系統性短板。

二、關聯性矩陣顯示,高層能力族內關聯較強,底層能力Permanence/Spatiality/Continuity與高層能力相關性普遍偏弱。說明模型缺乏人類由低到高的腳手架式認知發展結構,模型的高級感知與推理并不是建立在基礎的認知能力上的。這也能解釋為什么模型出現魯棒性缺陷。

三、研究團隊將三階段12個核心能力的得分與26個公開基準做相關性分析,結果表明除Perspective和Intuitive Physics外,大多數核心能力與公開基準(除ChartQA)及高層能力顯著正相關。這表明核心知識越強,上層任務越穩。而Perspective和Intuitive Physics能力作為人類高級推理的基礎展現出的低相關性,與我們之前在關系矩陣里看到的模式一致,這正是現有模型核心知識缺陷的直接證據。

四、基于230個模型擬合“規模—表現”的回歸斜率顯示,低層能力隨規模提升改善顯著更少或幾乎不變;其中Perspective-taking甚至出現反向規模效應(模型越大越差)。增加模型規模主要利好高層能力,對低層核心能力幫助有限甚至為負。

五、Concept Hacking實驗結果顯示,大模型相較小模型整體并未取得提升,部分情形甚至更差。這說明單靠擴規模不足以消除對捷徑的依賴,也難以獲得穩健的核心知識。直觀上,模型并非“越大越懂”,而是越大越善于投機。

結合結果圖中的信息,模型可歸納為四類:

  • 核心知識型

    控制題與操縱題均表現良好(接近人類水平,但樣本占比極少),說明具備穩健的核心概念理解與遷移。

  • 捷徑依賴型

    控制題得分高、操縱題顯著下降,提示主要依賴表面線索或訓練相似性,缺乏對概念要素的因果把握。

  • 核心缺陷型

    控制題即低于或接近偶然水平,操縱題亦無穩定收益,反映基礎“核心知識”不足。

  • 偶然型

    控制題與操縱題均近似隨機波動,整體不可依賴(更多體現噪聲與運氣)。

認知指令帶來短期增益,但難以彌補底層缺口。

對比推理模型與其對應非推理版本模型性能顯示,推理模型多數核心能力任務未見顯著提升,癥結不在“會不會用推理”,而在底層表征是否具備,即預訓練階段對核心知識的覆蓋與結構化不足。

與此同時,研究團隊發現,引入認知指令(在題目前明確提示相關概念,如perspective taking)可帶來約6%的即刻增益,提示模型內部可能分布式存有相關線索,但缺少有效的檢索與調用機制。

然而,此類做法在真實場景中可獲得性與可用性受限,實際應用往往無法提供如此明確的概念標簽來引導模型。

在引人注目的“能寫會畫”之外,真正的智能首先取決于對世界最樸素規則的把握。

這項研究說明:參數堆疊并不等于理解,地基是否扎實才是關鍵。

與其一味追求“更大、更強”,不如換個起點:先把核心知識補齊,讓模型學會在變化、多樣與噪聲中保持一致的常識判斷與因果直覺。

簡單說就是:先長地基,再長樓層;規模是加法,核心認知是乘法。

論文地址:https://arxiv.org/abs/2410.10855

Website:https://grow-ai-like-a-child.github.io/core-knowledge/

Dataset:https://huggingface.co/datasets/williamium/CoreCognition

關鍵詞: 認知 能力 缺陷 核心 模型 嬰幼兒 人類

熱門推薦

国内精品久久久久伊人av_欧美日韩亚洲系列_午夜欧美大片免费观看_欧美日韩综合不卡
精品欧美乱码久久久久久| 国产精一区二区三区| 欧美视频一区二区三区| 国产精品一区二区久久精品爱涩| 久久国产精品72免费观看| 中文一区二区完整视频在线观看| 亚洲国产精品久久不卡毛片| 国产日本一区二区| 欧美电影免费提供在线观看| 欧美日韩国产影片| 99久久综合狠狠综合久久| 久久99精品国产麻豆婷婷| 日韩高清不卡一区二区三区| 亚洲国产综合色| 亚洲激情在线播放| 亚洲视频在线观看三级| 国产午夜精品久久久久久免费视| 成人免费高清视频在线观看| 久久不见久久见免费视频7 | 国产精品一二二区| 视频一区二区国产| 图片区小说区区亚洲影院| 中文字幕视频一区| 亚洲精品日日夜夜| 一区二区三区不卡在线观看| 亚洲精品ww久久久久久p站 | 欧美电影一区二区三区| 在线观看国产精品网站| 欧美午夜精品一区二区三区| 欧美丝袜第三区| 欧美日韩你懂得| 91精品国产综合久久蜜臀| 欧美一区国产二区| 精品久久99ma| 久久久蜜臀国产一区二区| 久久精品夜夜夜夜久久| 国产欧美一区二区精品婷婷| 亚洲欧美一区二区三区极速播放| 日韩视频不卡中文| 久久综合九色综合欧美98| 国产精品美女久久久久久久| 亚洲美女视频在线| 日韩国产一区二| 国产一区二区精品久久99| 国产做a爰片久久毛片| 国产精品资源在线观看| 99re热这里只有精品免费视频 | 久久久久久久精| 中文字幕日韩av资源站| 亚洲精品欧美在线| 奇米色777欧美一区二区| 国产不卡视频在线观看| 色哟哟欧美精品| 91精品久久久久久久91蜜桃| 欧美激情一区二区三区| 一区二区三区在线免费观看| 久久成人久久鬼色| 97国产精品videossex| 欧美一区二区免费视频| 国产精品美女一区二区三区| 亚洲成人av在线电影| 国产伦精品一区二区三区免费迷| 日本免费在线视频不卡一不卡二| 亚洲人成精品久久久久| 免费av成人在线| 97久久人人超碰| 欧美一区二区播放| 亚洲丝袜另类动漫二区| 久久精品国产澳门| 欧美在线影院一区二区| 久久精品免视看| 亚洲一本大道在线| proumb性欧美在线观看| 精品国产电影一区二区| 一区二区三区 在线观看视频| 亚洲日本在线a| 蜜臀av国产精品久久久久| 欧洲色大大久久| 国产精品理论片在线观看| 精品一区二区三区日韩| 欧美无砖砖区免费| 亚洲欧美偷拍三级| 成人国产在线观看| 久久精品亚洲国产奇米99| 偷窥国产亚洲免费视频| 色婷婷综合五月| 国产精品黄色在线观看| 丁香婷婷深情五月亚洲| 久久久天堂av| 国产精品18久久久久久久久久久久| 国产黄色91视频| 欧美电影免费观看高清完整版在| 亚洲精品一区二区三区蜜桃下载| 久久亚区不卡日本| 偷拍自拍另类欧美| 欧美日韩精品福利| 亚洲大型综合色站| 欧美理论在线播放| 秋霞国产午夜精品免费视频| 678五月天丁香亚洲综合网| 婷婷久久综合九色综合绿巨人| 美国欧美日韩国产在线播放| 69av一区二区三区| 香蕉成人伊视频在线观看| 精品视频1区2区| 免费在线观看日韩欧美| 欧美一区二区三区四区高清| 美腿丝袜亚洲一区| 26uuu色噜噜精品一区二区| 狠狠色丁香九九婷婷综合五月| 高清在线成人网| 国产精品天天摸av网| 94-欧美-setu| 亚洲成人精品影院| 91麻豆精品国产91| 国内成人免费视频| 国产精品福利影院| 欧美日韩免费视频| 久久国产三级精品| 国产欧美一区二区精品忘忧草| 亚洲成av人片www| 91精品国产欧美一区二区| 日本va欧美va瓶| 国产清纯美女被跳蛋高潮一区二区久久w | 国产精品久久久久影院亚瑟| www.日韩大片| 亚洲高清免费观看高清完整版在线观看 | 在线免费亚洲电影| 日本不卡123| 2020日本不卡一区二区视频| 粉嫩一区二区三区性色av| 一区二区三区在线视频观看| 91精品国产综合久久香蕉麻豆| 亚洲精品国产a| 欧美一区二区三区视频免费| 国产一区二区调教| 亚洲欧美日韩在线不卡| 欧美一区二区精品在线| 99久久精品国产一区| 青青青爽久久午夜综合久久午夜| 欧美三级中文字幕在线观看| 久久丁香综合五月国产三级网站| 在线视频一区二区三| 久久av老司机精品网站导航| 中文字幕一区二区在线播放| 91精品国产综合久久久久| 国产一区二区三区美女| 亚洲高清免费观看| 亚洲国产精品99久久久久久久久| 国产成人免费在线视频| 一区二区三区波多野结衣在线观看 | 欧美视频在线一区| 成人永久aaa| 蜜臀久久久久久久| 一级中文字幕一区二区| 国产亚洲成aⅴ人片在线观看 | 亚洲国产wwwccc36天堂| 久久精品日产第一区二区三区高清版 | 日韩一区二区在线观看| 成人app在线观看| 精品一区二区三区免费毛片爱| 日韩一区二区三区在线| 色哟哟一区二区在线观看| 国产成人亚洲精品狼色在线| 日本一道高清亚洲日美韩| 亚洲精品综合在线| 国产精品久久久久久久久免费相片| 岛国精品一区二区| 麻豆一区二区99久久久久| 亚洲成人动漫在线免费观看| 亚洲男同性视频| 成人免费小视频| 国产精品卡一卡二| 国产嫩草影院久久久久| 欧美精品一区二区三区很污很色的| 国产成人在线视频免费播放| 日韩精品一区第一页| 天天综合网天天综合色| 日韩综合小视频| 午夜婷婷国产麻豆精品| 亚洲一二三四久久| 一区二区三区四区在线播放| 亚洲免费观看高清| 洋洋av久久久久久久一区| 一区二区三区在线观看视频| 亚洲乱码中文字幕| 一区二区三区成人在线视频| 一区二区在线观看免费| 亚洲精品成人精品456| 亚洲综合在线电影| 亚洲成av人影院| 天天亚洲美女在线视频| 蜜桃91丨九色丨蝌蚪91桃色| 久久精品国产999大香线蕉| 韩日欧美一区二区三区| 成人精品国产一区二区4080| 91美女视频网站| 欧美日韩一区二区三区在线| 欧美一区二区三区影视| 久久久精品国产99久久精品芒果|