BabyVision: Ragionamento Visivo Oltre il Linguaggio
BabyVision: Visual Reasoning Beyond Language
January 10, 2026
Autori: Liang Chen, Weichu Xie, Yiyan Liang, Hongfeng He, Hans Zhao, Zhibo Yang, Zhiqi Huang, Haoning Wu, Haoyu Lu, Y. charles, Yiping Bao, Yuantao Fan, Guopeng Li, Haiyang Shen, Xuanzhong Chen, Wendong Xu, Shuzheng Si, Zefan Cai, Wenhao Chai, Ziqi Huang, Fangfu Liu, Tianyu Liu, Baobao Chang, Xiaobo Hu, Kaiyuan Chen, Yixin Ren, Yang Liu, Yuan Gong, Kuan Li
cs.AI
Abstract
Mentre gli esseri umani sviluppano competenze visive fondamentali molto prima di acquisire il linguaggio, i moderni modelli linguistici multimodali (MLLM) continuano a fare ampio affidamento su prerequisiti linguistici per compensare la loro fragile comprensione visiva. Abbiamo scoperto un fatto cruciale: gli MLLM all'avanguardia falliscono costantemente in compiti visivi di base che gli esseri umani, persino i bambini di 3 anni, risolvono senza sforzo. Per indagare sistematicamente questo divario, introduciamo BabyVision, un benchmark progettato per valutare le capacità visive fondamentali degli MLLM indipendentemente dalla conoscenza linguistica. BabyVision copre un'ampia gamma di compiti, con 388 elementi suddivisi in 22 sottoclassi attraverso quattro categorie chiave. I risultati empirici e la valutazione umana rivelano che i principali MLLM performano significativamente al di sotto dei benchmark umani. Gemini3-Pro-Preview ottiene un punteggio di 49.7, rimanendo indietro rispetto ai bambini di 6 anni e ben al di sotto del punteggio medio adulto di 94.1. Questi risultati dimostrano che, nonostante l'eccellenza in valutazioni ricche di conoscenze, gli MLLM attuali mancano ancora di primitivi visivi fondamentali. I progressi in BabyVision rappresentano un passo verso capacità di percezione e ragionamento visivo di livello umano. Esploriamo inoltre la risoluzione del ragionamento visivo con modelli generativi proponendo BabyVision-Gen e un toolkit di valutazione automatica. Il nostro codice e i dati del benchmark sono rilasciati su https://github.com/UniPat-AI/BabyVision per la riproduzione.
English
While humans develop core visual skills long before acquiring language, contemporary Multimodal LLMs (MLLMs) still rely heavily on linguistic priors to compensate for their fragile visual understanding. We uncovered a crucial fact: state-of-the-art MLLMs consistently fail on basic visual tasks that humans, even 3-year-olds, can solve effortlessly. To systematically investigate this gap, we introduce BabyVision, a benchmark designed to assess core visual abilities independent of linguistic knowledge for MLLMs. BabyVision spans a wide range of tasks, with 388 items divided into 22 subclasses across four key categories. Empirical results and human evaluation reveal that leading MLLMs perform significantly below human baselines. Gemini3-Pro-Preview scores 49.7, lagging behind 6-year-old humans and falling well behind the average adult score of 94.1. These results show despite excelling in knowledge-heavy evaluations, current MLLMs still lack fundamental visual primitives. Progress in BabyVision represents a step toward human-level visual perception and reasoning capabilities. We also explore solving visual reasoning with generation models by proposing BabyVision-Gen and automatic evaluation toolkit. Our code and benchmark data are released at https://github.com/UniPat-AI/BabyVision for reproduction.