BabyVision: Raciocínio Visual Além da Linguagem
BabyVision: Visual Reasoning Beyond Language
January 10, 2026
Autores: Liang Chen, Weichu Xie, Yiyan Liang, Hongfeng He, Hans Zhao, Zhibo Yang, Zhiqi Huang, Haoning Wu, Haoyu Lu, Y. charles, Yiping Bao, Yuantao Fan, Guopeng Li, Haiyang Shen, Xuanzhong Chen, Wendong Xu, Shuzheng Si, Zefan Cai, Wenhao Chai, Ziqi Huang, Fangfu Liu, Tianyu Liu, Baobao Chang, Xiaobo Hu, Kaiyuan Chen, Yixin Ren, Yang Liu, Yuan Gong, Kuan Li
cs.AI
Resumo
Embora os seres humanos desenvolvam competências visuais fundamentais muito antes de adquirir linguagem, os modelos de linguagem multimodal (MLLMs) contemporâneos ainda dependem fortemente de conhecimentos linguísticos prévios para compensar a sua frágil compreensão visual. Descobrimos um facto crucial: os MLLMs mais avançados falham consistentemente em tarefas visuais básicas que os seres humanos, mesmo crianças de 3 anos, resolvem sem esforço. Para investigar sistematicamente esta lacuna, introduzimos o BabyVision, um benchmark concebido para avaliar capacidades visuais fundamentais, independentes do conhecimento linguístico, em MLLMs. O BabyVision abrange uma vasta gama de tarefas, com 388 itens divididos em 22 subclasses em quatro categorias-chave. Resultados empíricos e avaliação humana revelam que os principais MLLMs têm um desempenho significativamente abaixo dos valores de referência humanos. O Gemini3-Pro-Preview obtém uma pontuação de 49.7, ficando atrás de humanos de 6 anos e muito abaixo da pontuação média adulta de 94.1. Estes resultados mostram que, apesar de se destacarem em avaliações que exigem muito conhecimento, os MLLMs atuais ainda carecem de primitivas visuais fundamentais. O progresso no BabyVision representa um passo em direção a capacidades de perceção e raciocínio visual de nível humano. Exploramos também a resolução de raciocínio visual com modelos de geração, propondo o BabyVision-Gen e um kit de ferramentas de avaliação automática. O nosso código e dados de benchmark estão disponíveis em https://github.com/UniPat-AI/BabyVision para reprodução.
English
While humans develop core visual skills long before acquiring language, contemporary Multimodal LLMs (MLLMs) still rely heavily on linguistic priors to compensate for their fragile visual understanding. We uncovered a crucial fact: state-of-the-art MLLMs consistently fail on basic visual tasks that humans, even 3-year-olds, can solve effortlessly. To systematically investigate this gap, we introduce BabyVision, a benchmark designed to assess core visual abilities independent of linguistic knowledge for MLLMs. BabyVision spans a wide range of tasks, with 388 items divided into 22 subclasses across four key categories. Empirical results and human evaluation reveal that leading MLLMs perform significantly below human baselines. Gemini3-Pro-Preview scores 49.7, lagging behind 6-year-old humans and falling well behind the average adult score of 94.1. These results show despite excelling in knowledge-heavy evaluations, current MLLMs still lack fundamental visual primitives. Progress in BabyVision represents a step toward human-level visual perception and reasoning capabilities. We also explore solving visual reasoning with generation models by proposing BabyVision-Gen and automatic evaluation toolkit. Our code and benchmark data are released at https://github.com/UniPat-AI/BabyVision for reproduction.