BabyVision: 言語を超えた視覚的推論
BabyVision: Visual Reasoning Beyond Language
January 10, 2026
著者: Liang Chen, Weichu Xie, Yiyan Liang, Hongfeng He, Hans Zhao, Zhibo Yang, Zhiqi Huang, Haoning Wu, Haoyu Lu, Y. charles, Yiping Bao, Yuantao Fan, Guopeng Li, Haiyang Shen, Xuanzhong Chen, Wendong Xu, Shuzheng Si, Zefan Cai, Wenhao Chai, Ziqi Huang, Fangfu Liu, Tianyu Liu, Baobao Chang, Xiaobo Hu, Kaiyuan Chen, Yixin Ren, Yang Liu, Yuan Gong, Kuan Li
cs.AI
要旨
人間は言語を獲得するはるか以前に中核的な視覚スキルを発達させますが、現代のマルチモーダルLLM(MLLM)は、脆弱な視覚理解を補うために依然として言語的な事前知識に大きく依存しています。私たちは重要な事実を発見しました:最先端のMLLMでさえ、3歳の子供ですら容易に解決できる基本的な視覚課題に一貫して失敗するのです。この隔たりを体系的に調査するため、私たちはMLLMの言語知識に依存しない中核的視覚能力を評価するベンチマーク「BabyVision」を提案します。BabyVisionは4つの主要カテゴリにわたる22のサブクラス、合計388項目の多様な課題で構成されています。実証結果と人間による評価により、主要なMLLMが人間のベースラインを大幅に下回ることが明らかになりました。Gemini3-Pro-Previewは49.7点で、6歳児の水準にも届かず、成人の平均点94.1からは大きく後れを取っています。これらの結果は、知識重視の評価では優れた成績を収めているにもかかわらず、現在のMLLMには基本的な視覚的原始能力が依然として欠如していることを示しています。BabyVisionの進展は、人間レベルの視覚知覚と推論能力に向けた一歩となります。また我们は生成モデルを用いた視覚推論の解決法としてBabyVision-Genと自動評価ツールキットを提案します。再現実験のためのコードとベンチマークデータはhttps://github.com/UniPat-AI/BabyVision で公開されています。
English
While humans develop core visual skills long before acquiring language, contemporary Multimodal LLMs (MLLMs) still rely heavily on linguistic priors to compensate for their fragile visual understanding. We uncovered a crucial fact: state-of-the-art MLLMs consistently fail on basic visual tasks that humans, even 3-year-olds, can solve effortlessly. To systematically investigate this gap, we introduce BabyVision, a benchmark designed to assess core visual abilities independent of linguistic knowledge for MLLMs. BabyVision spans a wide range of tasks, with 388 items divided into 22 subclasses across four key categories. Empirical results and human evaluation reveal that leading MLLMs perform significantly below human baselines. Gemini3-Pro-Preview scores 49.7, lagging behind 6-year-old humans and falling well behind the average adult score of 94.1. These results show despite excelling in knowledge-heavy evaluations, current MLLMs still lack fundamental visual primitives. Progress in BabyVision represents a step toward human-level visual perception and reasoning capabilities. We also explore solving visual reasoning with generation models by proposing BabyVision-Gen and automatic evaluation toolkit. Our code and benchmark data are released at https://github.com/UniPat-AI/BabyVision for reproduction.