BabyVision : Raisonnement visuel au-delà du langage

BabyVision: Visual Reasoning Beyond Language

January 10, 2026
papers.authors: Liang Chen, Weichu Xie, Yiyan Liang, Hongfeng He, Hans Zhao, Zhibo Yang, Zhiqi Huang, Haoning Wu, Haoyu Lu, Y. charles, Yiping Bao, Yuantao Fan, Guopeng Li, Haiyang Shen, Xuanzhong Chen, Wendong Xu, Shuzheng Si, Zefan Cai, Wenhao Chai, Ziqi Huang, Fangfu Liu, Tianyu Liu, Baobao Chang, Xiaobo Hu, Kaiyuan Chen, Yixin Ren, Yang Liu, Yuan Gong, Kuan Li
cs.AI

papers.abstract

Alors que les humains développent des compétences visuelles fondamentales bien avant l'acquisition du langage, les modèles de langage multimodaux (MLLM) contemporains reposent encore largement sur des prérequis linguistiques pour compenser leur compréhension visuelle fragile. Nous avons mis au jour un fait crucial : les MLLM les plus avancés échouent systématiquement à des tâches visuelles basiques que les humains, même des enfants de 3 ans, résolvent sans effort. Pour étudier cet écart de manière systématique, nous présentons BabyVision, un benchmark conçu pour évaluer les capacités visuelles fondamentales des MLLM indépendamment des connaissances linguistiques. BabyVision couvre un large éventail de tâches, avec 388 items répartis en 22 sous-classes à travers quatre catégories clés. Les résultats empiriques et l'évaluation humaine révèlent que les MLLM leaders performent significativement en deçà des niveaux de référence humains. Gemini3-Pro-Preview obtient un score de 49.7, à la traîne des enfants de 6 ans et loin derrière le score adulte moyen de 94.1. Ces résultats montrent que, malgré leur excellence dans les évaluations exigeant de vastes connaissances, les MLLM actuels manquent encore de primitives visuelles fondamentales. Les progrès sur BabyVision représentent une étape vers des capacités de perception et de raisonnement visuel de niveau humain. Nous explorons également la résolution du raisonnement visuel avec des modèles de génération en proposant BabyVision-Gen et une boîte à outils d'évaluation automatique. Notre code et les données du benchmark sont disponibles à l'adresse https://github.com/UniPat-AI/BabyVision pour permettre la reproduction.
English
While humans develop core visual skills long before acquiring language, contemporary Multimodal LLMs (MLLMs) still rely heavily on linguistic priors to compensate for their fragile visual understanding. We uncovered a crucial fact: state-of-the-art MLLMs consistently fail on basic visual tasks that humans, even 3-year-olds, can solve effortlessly. To systematically investigate this gap, we introduce BabyVision, a benchmark designed to assess core visual abilities independent of linguistic knowledge for MLLMs. BabyVision spans a wide range of tasks, with 388 items divided into 22 subclasses across four key categories. Empirical results and human evaluation reveal that leading MLLMs perform significantly below human baselines. Gemini3-Pro-Preview scores 49.7, lagging behind 6-year-old humans and falling well behind the average adult score of 94.1. These results show despite excelling in knowledge-heavy evaluations, current MLLMs still lack fundamental visual primitives. Progress in BabyVision represents a step toward human-level visual perception and reasoning capabilities. We also explore solving visual reasoning with generation models by proposing BabyVision-Gen and automatic evaluation toolkit. Our code and benchmark data are released at https://github.com/UniPat-AI/BabyVision for reproduction.
PDF1463January 14, 2026