BabyVision: Visueel Redeneren voorbij Taal
BabyVision: Visual Reasoning Beyond Language
January 10, 2026
Auteurs: Liang Chen, Weichu Xie, Yiyan Liang, Hongfeng He, Hans Zhao, Zhibo Yang, Zhiqi Huang, Haoning Wu, Haoyu Lu, Y. charles, Yiping Bao, Yuantao Fan, Guopeng Li, Haiyang Shen, Xuanzhong Chen, Wendong Xu, Shuzheng Si, Zefan Cai, Wenhao Chai, Ziqi Huang, Fangfu Liu, Tianyu Liu, Baobao Chang, Xiaobo Hu, Kaiyuan Chen, Yixin Ren, Yang Liu, Yuan Gong, Kuan Li
cs.AI
Samenvatting
Hoewel mensen hun kernvisuele vaardigheden ontwikkelen lang voordat ze taal verwerven, blijven hedendaagse Multimodale LLM's (MLLM's) sterk leunen op taalkundige a priori kennis om hun kwetsbaar visueel begrip te compenseren. Wij ontdekten een cruciaal feit: state-of-the-art MLLM's falen consistent in basale visuele taken die mensen, zelfs 3-jarigen, moeiteloos oplossen. Om deze kloof systematisch te onderzoeken, introduceren we BabyVision, een benchmark ontworpen om de kernvisuele vaardigheden van MLLM's onafhankelijk van taalkundige kennis te beoordelen. BabyVision bestrijkt een breed scala aan taken, met 388 items verdeeld over 22 subklassen in vier hoofdcategorieën. Empirische resultaten en humane evaluatie onthullen dat toonaangevende MLLM's aanzienlijk onder de menselijke basisprestaties scoren. Gemini3-Pro-Preview scoort 49,7, wat achterblijft bij 6-jarige mensen en ver achter de gemiddelde volwassen score van 94,1 blijft. Deze resultaten tonen aan dat, ondats ze uitblinken in kennisintensieve evaluaties, huidige MLLM's nog steeds fundamentele visuele primitieven missen. Vooruitgang in BabyVision vertegenwoordigt een stap in de richting van menselijk niveau van visuele perceptie en redeneervaardigheden. We onderzoeken ook het oplossen van visueel redeneren met generatiemodellen door BabyVision-Gen en een toolkit voor automatische evaluatie voor te stellen. Onze code en benchmarkgegevens zijn vrijgegeven op https://github.com/UniPat-AI/BabyVision voor reproductie.
English
While humans develop core visual skills long before acquiring language, contemporary Multimodal LLMs (MLLMs) still rely heavily on linguistic priors to compensate for their fragile visual understanding. We uncovered a crucial fact: state-of-the-art MLLMs consistently fail on basic visual tasks that humans, even 3-year-olds, can solve effortlessly. To systematically investigate this gap, we introduce BabyVision, a benchmark designed to assess core visual abilities independent of linguistic knowledge for MLLMs. BabyVision spans a wide range of tasks, with 388 items divided into 22 subclasses across four key categories. Empirical results and human evaluation reveal that leading MLLMs perform significantly below human baselines. Gemini3-Pro-Preview scores 49.7, lagging behind 6-year-old humans and falling well behind the average adult score of 94.1. These results show despite excelling in knowledge-heavy evaluations, current MLLMs still lack fundamental visual primitives. Progress in BabyVision represents a step toward human-level visual perception and reasoning capabilities. We also explore solving visual reasoning with generation models by proposing BabyVision-Gen and automatic evaluation toolkit. Our code and benchmark data are released at https://github.com/UniPat-AI/BabyVision for reproduction.