BabyVision: Razonamiento visual más allá del lenguaje

BabyVision: Visual Reasoning Beyond Language

January 10, 2026
Autores: Liang Chen, Weichu Xie, Yiyan Liang, Hongfeng He, Hans Zhao, Zhibo Yang, Zhiqi Huang, Haoning Wu, Haoyu Lu, Y. charles, Yiping Bao, Yuantao Fan, Guopeng Li, Haiyang Shen, Xuanzhong Chen, Wendong Xu, Shuzheng Si, Zefan Cai, Wenhao Chai, Ziqi Huang, Fangfu Liu, Tianyu Liu, Baobao Chang, Xiaobo Hu, Kaiyuan Chen, Yixin Ren, Yang Liu, Yuan Gong, Kuan Li
cs.AI

Resumen

Si bien los humanos desarrollan habilidades visuales fundamentales mucho antes de adquirir lenguaje, los Modelos de Lenguaje Multimodales (MLLMs) contemporáneos aún dependen en gran medida de conocimientos lingüísticos previos para compensar su frágil comprensión visual. Hemos descubierto un hecho crucial: los MLLMs más avanzados fallan consistentemente en tareas visuales básicas que los humanos, incluso niños de 3 años, pueden resolver sin esfuerzo. Para investigar esta brecha de manera sistemática, presentamos BabyVision, un benchmark diseñado para evaluar las capacidades visuales fundamentales de los MLLMs, independientemente del conocimiento lingüístico. BabyVision abarca una amplia gama de tareas, con 388 ítems divididos en 22 subclases dentro de cuatro categorías clave. Los resultados empíricos y la evaluación humana revelan que los principales MLLMs tienen un rendimiento significativamente inferior al de los humanos de referencia. Gemini3-Pro-Preview obtiene una puntuación de 49.7, quedando por detrás de humanos de 6 años y muy por debajo de la puntuación adulta promedio de 94.1. Estos resultados muestran que, a pesar de su excelente rendimiento en evaluaciones que requieren mucho conocimiento, los MLLMs actuales aún carecen de primitivas visuales fundamentales. El progreso en BabyVision representa un paso hacia capacidades de percepción y razonamiento visual a nivel humano. También exploramos la resolución del razonamiento visual con modelos de generación proponiendo BabyVision-Gen y un kit de herramientas de evaluación automática. Nuestro código y datos del benchmark están disponibles en https://github.com/UniPat-AI/BabyVision para su reproducción.
English
While humans develop core visual skills long before acquiring language, contemporary Multimodal LLMs (MLLMs) still rely heavily on linguistic priors to compensate for their fragile visual understanding. We uncovered a crucial fact: state-of-the-art MLLMs consistently fail on basic visual tasks that humans, even 3-year-olds, can solve effortlessly. To systematically investigate this gap, we introduce BabyVision, a benchmark designed to assess core visual abilities independent of linguistic knowledge for MLLMs. BabyVision spans a wide range of tasks, with 388 items divided into 22 subclasses across four key categories. Empirical results and human evaluation reveal that leading MLLMs perform significantly below human baselines. Gemini3-Pro-Preview scores 49.7, lagging behind 6-year-old humans and falling well behind the average adult score of 94.1. These results show despite excelling in knowledge-heavy evaluations, current MLLMs still lack fundamental visual primitives. Progress in BabyVision represents a step toward human-level visual perception and reasoning capabilities. We also explore solving visual reasoning with generation models by proposing BabyVision-Gen and automatic evaluation toolkit. Our code and benchmark data are released at https://github.com/UniPat-AI/BabyVision for reproduction.
PDF1463January 14, 2026