BabyVision: Визуальное мышление за пределами языка
BabyVision: Visual Reasoning Beyond Language
January 10, 2026
Авторы: Liang Chen, Weichu Xie, Yiyan Liang, Hongfeng He, Hans Zhao, Zhibo Yang, Zhiqi Huang, Haoning Wu, Haoyu Lu, Y. charles, Yiping Bao, Yuantao Fan, Guopeng Li, Haiyang Shen, Xuanzhong Chen, Wendong Xu, Shuzheng Si, Zefan Cai, Wenhao Chai, Ziqi Huang, Fangfu Liu, Tianyu Liu, Baobao Chang, Xiaobo Hu, Kaiyuan Chen, Yixin Ren, Yang Liu, Yuan Gong, Kuan Li
cs.AI
Аннотация
В то время как люди развивают базовые визуальные навыки задолго до овладения языком, современные мультимодальные большие языковые модели (MLLM) по-прежнему сильно зависят от лингвистических априорных знаний, чтобы компенсировать их хрупкое визуальное понимание. Мы обнаружили ключевой факт: передовые MLLM последовательно терпят неудачу в решении базовых визуальных задач, которые люди, даже 3-летние дети, решают без усилий. Для систематического исследования этого разрыва мы представляем BabyVision — эталонный тест, предназначенный для оценки базовых визуальных способностей MLLM, независимых от лингвистических знаний. BabyVision охватывает широкий спектр задач, включая 388 пунктов, разделенных на 22 подкласса по четырем ключевым категориям. Эмпирические результаты и оценка человеком показывают, что ведущие MLLM демонстрируют результаты значительно ниже человеческих базовых уровней. Gemini3-Pro-Preview набирает 49,7 балла, отставая от 6-летних детей и значительно уступая среднему показателю взрослого человека в 94,1 балла. Эти результаты показывают, что, несмотря на превосходство в оценках, требующих обширных знаний, современные MLLM все еще не обладают фундаментальными визуальными примитивами. Прогресс в BabyVision представляет собой шаг к достижению человеческого уровня визуального восприятия и способностей к рассуждению. Мы также исследуем решение задач визуального рассуждения с помощью генеративных моделей, предлагая BabyVision-Gen и инструментарий для автоматической оценки. Наш код и данные эталонного теста опубликованы по адресу https://github.com/UniPat-AI/BabyVision для воспроизведения.
English
While humans develop core visual skills long before acquiring language, contemporary Multimodal LLMs (MLLMs) still rely heavily on linguistic priors to compensate for their fragile visual understanding. We uncovered a crucial fact: state-of-the-art MLLMs consistently fail on basic visual tasks that humans, even 3-year-olds, can solve effortlessly. To systematically investigate this gap, we introduce BabyVision, a benchmark designed to assess core visual abilities independent of linguistic knowledge for MLLMs. BabyVision spans a wide range of tasks, with 388 items divided into 22 subclasses across four key categories. Empirical results and human evaluation reveal that leading MLLMs perform significantly below human baselines. Gemini3-Pro-Preview scores 49.7, lagging behind 6-year-old humans and falling well behind the average adult score of 94.1. These results show despite excelling in knowledge-heavy evaluations, current MLLMs still lack fundamental visual primitives. Progress in BabyVision represents a step toward human-level visual perception and reasoning capabilities. We also explore solving visual reasoning with generation models by proposing BabyVision-Gen and automatic evaluation toolkit. Our code and benchmark data are released at https://github.com/UniPat-AI/BabyVision for reproduction.