BabyVision: 언어를 넘어선 시각적 추론

BabyVision: Visual Reasoning Beyond Language

January 10, 2026
저자: Liang Chen, Weichu Xie, Yiyan Liang, Hongfeng He, Hans Zhao, Zhibo Yang, Zhiqi Huang, Haoning Wu, Haoyu Lu, Y. charles, Yiping Bao, Yuantao Fan, Guopeng Li, Haiyang Shen, Xuanzhong Chen, Wendong Xu, Shuzheng Si, Zefan Cai, Wenhao Chai, Ziqi Huang, Fangfu Liu, Tianyu Liu, Baobao Chang, Xiaobo Hu, Kaiyuan Chen, Yixin Ren, Yang Liu, Yuan Gong, Kuan Li
cs.AI

초록

인간은 언어 습득 훨씬 이전에 핵심 시각 능력을 발달시키지만, 현대의 멀티모달 대규모 언어 모델(MLLM)은 여전히 취약한 시각 이해력을 보완하기 위해 언어적 사전 지식에 크게 의존하고 있습니다. 우리는 중요한 사실을 발견했는데, 최첨단 MLLM조차 3세 유아도 거뜬히 해결하는 기본적인 시각 과제에서 지속적으로 실패한다는 점입니다. 이러한 격차를 체계적으로 조사하기 위해 MLLM의 언어 지식과 무관한 핵심 시각 능력을 평가하도록 설계된 벤치마크인 BabyVision을 소개합니다. BabyVision은 4가지 주요 범주, 22개 하위 분류, 총 388개 항목으로 구성된 다양한 과제를 포괄합니다. 실험 결과와 인간 평가에 따르면 주요 MLLM의 성능은 인간 기준치보다 현저히 낮습니다. Gemini3-Pro-Preview는 49.7점을 기록하여 6세 인간 아동보다 뒤처졌으며, 성인 평균 점수인 94.1점보다 훨씬 못 미쳤습니다. 이러한 결과는 지식 중심 평가에서는 뛰어난 성과를 보임에도 불구하고, 현재의 MLLM이 여전히 기본적인 시각 원시 능력이 부족함을 보여줍니다. BabyVision의 발전은 인간 수준의 시각 지각 및 추론 능력으로 나아가는 한 걸음입니다. 우리는 또한 생성 모델을 이용한 시각 추론 해결 방안을 탐구하기 위해 BabyVision-Gen과 자동 평가 도구 키트를 제안합니다. 재현을 위한 코드와 벤치마크 데이터는 https://github.com/UniPat-AI/BabyVision에서 공개되었습니다.
English
While humans develop core visual skills long before acquiring language, contemporary Multimodal LLMs (MLLMs) still rely heavily on linguistic priors to compensate for their fragile visual understanding. We uncovered a crucial fact: state-of-the-art MLLMs consistently fail on basic visual tasks that humans, even 3-year-olds, can solve effortlessly. To systematically investigate this gap, we introduce BabyVision, a benchmark designed to assess core visual abilities independent of linguistic knowledge for MLLMs. BabyVision spans a wide range of tasks, with 388 items divided into 22 subclasses across four key categories. Empirical results and human evaluation reveal that leading MLLMs perform significantly below human baselines. Gemini3-Pro-Preview scores 49.7, lagging behind 6-year-old humans and falling well behind the average adult score of 94.1. These results show despite excelling in knowledge-heavy evaluations, current MLLMs still lack fundamental visual primitives. Progress in BabyVision represents a step toward human-level visual perception and reasoning capabilities. We also explore solving visual reasoning with generation models by proposing BabyVision-Gen and automatic evaluation toolkit. Our code and benchmark data are released at https://github.com/UniPat-AI/BabyVision for reproduction.
PDF1463January 14, 2026