Pixel, Muster, aber keine Poesie: Die Welt wie Menschen sehen
Pixels, Patterns, but No Poetry: To See The World like Humans
July 21, 2025
papers.authors: Hongcheng Gao, Zihao Huang, Lin Xu, Jingyi Tang, Xinhao Li, Yue Liu, Haoyang Li, Taihang Hu, Minhua Lin, Xinlong Yang, Ge Wu, Balong Bi, Hongyu Chen, Wentao Zhang
cs.AI
papers.abstract
Die Erreichung einer menschenähnlichen Wahrnehmung und Denkfähigkeit in Multimodalen Großen Sprachmodellen (MLLMs) bleibt eine zentrale Herausforderung in der künstlichen Intelligenz. Während sich die jüngste Forschung hauptsächlich auf die Verbesserung der Denkfähigkeiten von MLLMs konzentriert hat, bleibt eine grundlegende Frage bestehen: Können Multimodale Große Sprachmodelle die Welt wirklich so wahrnehmen wie Menschen? Diese Arbeit verlagert den Fokus vom Denken zur Wahrnehmung. Anstatt speziell für das Denken entwickelte Benchmarks zu konstruieren, führen wir den Turing Eye Test (TET) ein, einen anspruchsvollen, wahrnehmungsorientierten Benchmark, der aus vier diagnostischen Aufgaben besteht, die die Leistung von MLLMs anhand von synthetischen Bildern bewerten, die Menschen intuitiv verarbeiten. Unsere Ergebnisse zeigen, dass state-of-the-art MLLMs bei unseren Wahrnehmungsaufgaben, die für Menschen trivial sind, katastrophale Fehler aufweisen. Sowohl In-Context-Lernen als auch das Training auf der Sprachbasis – effektiv für frühere Benchmarks – verbessern die Leistung bei unseren Aufgaben nicht, während das Feinabstimmen des Vision-Towers eine schnelle Anpassung ermöglicht. Dies deutet darauf hin, dass unser Benchmark Herausforderungen für die Generalisierung des Vision-Towers darstellt und nicht für das Wissen und die Denkfähigkeiten der Sprachbasis – eine entscheidende Lücke zwischen aktuellen MLLMs und der menschlichen Wahrnehmung. In dieser Version veröffentlichen wir eine repräsentative Teilmenge der TET-Aufgaben und werden in zukünftigen Arbeiten vielfältigere Aufgaben und Methoden einführen, um die visuelle Generalisierung zu verbessern.
English
Achieving human-like perception and reasoning in Multimodal Large Language
Models (MLLMs) remains a central challenge in artificial intelligence. While
recent research has primarily focused on enhancing reasoning capabilities in
MLLMs, a fundamental question persists: Can Multimodal Large Language Models
truly perceive the world as humans do? This paper shifts focus from reasoning
to perception. Rather than constructing benchmarks specifically for reasoning,
we introduce the Turing Eye Test (TET), a challenging perception-oriented
benchmark comprising four diagnostic tasks that evaluate MLLMs' performance on
synthetic images that humans process intuitively. Our findings reveal that
state-of-the-art MLLMs exhibit catastrophic failures on our perceptual tasks
trivial for humans. Both in-context learning and training on language
backbone-effective for previous benchmarks-fail to improve performance on our
tasks, while fine-tuning the vision tower enables rapid adaptation, suggesting
that our benchmark poses challenges for vision tower generalization rather than
for the knowledge and reasoning capabilities of the language backbone-a key gap
between current MLLMs and human perception. We release a representative subset
of TET tasks in this version, and will introduce more diverse tasks and methods
to enhance visual generalization in future work.