BabyVision: Visuelles Denken jenseits der Sprache
BabyVision: Visual Reasoning Beyond Language
January 10, 2026
papers.authors: Liang Chen, Weichu Xie, Yiyan Liang, Hongfeng He, Hans Zhao, Zhibo Yang, Zhiqi Huang, Haoning Wu, Haoyu Lu, Y. charles, Yiping Bao, Yuantao Fan, Guopeng Li, Haiyang Shen, Xuanzhong Chen, Wendong Xu, Shuzheng Si, Zefan Cai, Wenhao Chai, Ziqi Huang, Fangfu Liu, Tianyu Liu, Baobao Chang, Xiaobo Hu, Kaiyuan Chen, Yixin Ren, Yang Liu, Yuan Gong, Kuan Li
cs.AI
papers.abstract
Während Menschen grundlegende visuelle Fähigkeiten lange vor dem Spracherwerb entwickeln, stützen sich zeitgenössische Multimodale LLMs (MLLMs) nach wie vor stark auf sprachliche Priors, um ihr fragiles visuelles Verständnis zu kompensieren. Wir haben eine entscheidende Tatsache aufgedeckt: State-of-the-Art MLLMs versagen konsequent bei einfachen visuellen Aufgaben, die Menschen, sogar Dreijährige, mühelos lösen können. Um diese Lücke systematisch zu untersuchen, führen wir BabyVision ein, einen Benchmark, der entwickelt wurde, um kernvisuelle Fähigkeiten von MLLMs unabhängig von linguistischem Wissen zu bewerten. BabyVision umfasst eine breite Palette von Aufgaben mit 388 Items, unterteilt in 22 Unterklassen über vier Schlüsselkategorien hinweg. Empirische Ergebnisse und humanevaluation zeigen, dass führende MLLMs signifikant unter menschlichen Referenzwerten abschneiden. Gemini3-Pro-Preview erzielt 49,7 Punkte, liegt damit hinter Sechsjährigen zurück und bleibt deutlich unter dem Erwachsenendurchschnitt von 94,1 Punkten. Diese Ergebnisse zeigen, dass aktuelle MLLMs trotz guter Leistungen in wissensbasierten Evaluationen immer noch grundlegende visuelle Primitive vermissen lassen. Fortschritte bei BabyVision stellen einen Schritt hin zu menschenähnlichen visuellen Wahrnehmungs- und Reasoning-Fähigkeiten dar. Wir erforschen zudem das Lösen visueller Reasoning-Aufgaben mit Generativmodellen durch den Vorschlag von BabyVision-Gen und einem automatischen Evaluations-Toolkit. Unser Code und Benchmark-Daten sind unter https://github.com/UniPat-AI/BabyVision zur Reproduktion veröffentlicht.
English
While humans develop core visual skills long before acquiring language, contemporary Multimodal LLMs (MLLMs) still rely heavily on linguistic priors to compensate for their fragile visual understanding. We uncovered a crucial fact: state-of-the-art MLLMs consistently fail on basic visual tasks that humans, even 3-year-olds, can solve effortlessly. To systematically investigate this gap, we introduce BabyVision, a benchmark designed to assess core visual abilities independent of linguistic knowledge for MLLMs. BabyVision spans a wide range of tasks, with 388 items divided into 22 subclasses across four key categories. Empirical results and human evaluation reveal that leading MLLMs perform significantly below human baselines. Gemini3-Pro-Preview scores 49.7, lagging behind 6-year-old humans and falling well behind the average adult score of 94.1. These results show despite excelling in knowledge-heavy evaluations, current MLLMs still lack fundamental visual primitives. Progress in BabyVision represents a step toward human-level visual perception and reasoning capabilities. We also explore solving visual reasoning with generation models by proposing BabyVision-Gen and automatic evaluation toolkit. Our code and benchmark data are released at https://github.com/UniPat-AI/BabyVision for reproduction.