ChatPaper.aiChatPaper

Pixels, Patronen, maar geen Poëzie: De Wereld Zien zoals Mensen

Pixels, Patterns, but No Poetry: To See The World like Humans

July 21, 2025
Auteurs: Hongcheng Gao, Zihao Huang, Lin Xu, Jingyi Tang, Xinhao Li, Yue Liu, Haoyang Li, Taihang Hu, Minhua Lin, Xinlong Yang, Ge Wu, Balong Bi, Hongyu Chen, Wentao Zhang
cs.AI

Samenvatting

Het bereiken van mensachtige waarneming en redenering in Multimodale Grote Taalmodellen (MLLMs) blijft een centrale uitdaging in de kunstmatige intelligentie. Hoewel recent onderzoek zich voornamelijk heeft gericht op het verbeteren van de redeneervaardigheden in MLLMs, blijft een fundamentele vraag bestaan: Kunnen Multimodale Grote Taalmodellen de wereld echt waarnemen zoals mensen dat doen? Dit artikel verschuift de focus van redeneren naar waarneming. In plaats van benchmarks te construeren die specifiek gericht zijn op redeneren, introduceren we de Turing Eye Test (TET), een uitdagende, op waarneming gerichte benchmark die bestaat uit vier diagnostische taken die de prestaties van MLLMs evalueren op synthetische afbeeldingen die mensen intuïtief verwerken. Onze bevindingen onthullen dat state-of-the-art MLLMs catastrofale fouten vertonen op onze perceptuele taken die voor mensen triviaal zijn. Zowel in-context leren als training op de taalbackbone-effectief voor eerdere benchmarks-lukt er niet in om de prestaties op onze taken te verbeteren, terwijl fine-tuning van de visietoren snelle aanpassing mogelijk maakt, wat suggereert dat onze benchmark uitdagingen biedt voor de generalisatie van de visietoren in plaats van voor de kennis en redeneervaardigheden van de taalbackbone-een belangrijk gat tussen huidige MLLMs en menselijke waarneming. We geven een representatieve subset van TET-taken vrij in deze versie, en zullen in toekomstig werk meer diverse taken en methoden introduceren om visuele generalisatie te verbeteren.
English
Achieving human-like perception and reasoning in Multimodal Large Language Models (MLLMs) remains a central challenge in artificial intelligence. While recent research has primarily focused on enhancing reasoning capabilities in MLLMs, a fundamental question persists: Can Multimodal Large Language Models truly perceive the world as humans do? This paper shifts focus from reasoning to perception. Rather than constructing benchmarks specifically for reasoning, we introduce the Turing Eye Test (TET), a challenging perception-oriented benchmark comprising four diagnostic tasks that evaluate MLLMs' performance on synthetic images that humans process intuitively. Our findings reveal that state-of-the-art MLLMs exhibit catastrophic failures on our perceptual tasks trivial for humans. Both in-context learning and training on language backbone-effective for previous benchmarks-fail to improve performance on our tasks, while fine-tuning the vision tower enables rapid adaptation, suggesting that our benchmark poses challenges for vision tower generalization rather than for the knowledge and reasoning capabilities of the language backbone-a key gap between current MLLMs and human perception. We release a representative subset of TET tasks in this version, and will introduce more diverse tasks and methods to enhance visual generalization in future work.
PDF686July 24, 2025