Pixel, Modelli, ma Nessuna Poesia: Vedere il Mondo come gli Umani
Pixels, Patterns, but No Poetry: To See The World like Humans
July 21, 2025
Autori: Hongcheng Gao, Zihao Huang, Lin Xu, Jingyi Tang, Xinhao Li, Yue Liu, Haoyang Li, Taihang Hu, Minhua Lin, Xinlong Yang, Ge Wu, Balong Bi, Hongyu Chen, Wentao Zhang
cs.AI
Abstract
Raggiungere una percezione e un ragionamento simili a quelli umani nei Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) rimane una sfida centrale nell'intelligenza artificiale. Sebbene la ricerca recente si sia concentrata principalmente sul potenziamento delle capacità di ragionamento negli MLLMs, una domanda fondamentale persiste: i Modelli Linguistici Multimodali di Grande Dimensione possono davvero percepire il mondo come fanno gli esseri umani? Questo articolo sposta l'attenzione dal ragionamento alla percezione. Piuttosto che costruire benchmark specifici per il ragionamento, introduciamo il Turing Eye Test (TET), un benchmark orientato alla percezione e particolarmente impegnativo, composto da quattro task diagnostici che valutano le prestazioni degli MLLMs su immagini sintetiche che gli esseri umani elaborano in modo intuitivo. I nostri risultati rivelano che gli MLLMs all'avanguardia mostrano fallimenti catastrofici nei nostri task percettivi, che per gli esseri umani sono banali. Sia l'apprendimento in contesto che l'addestramento sul backbone linguistico, efficaci per benchmark precedenti, non migliorano le prestazioni nei nostri task, mentre il fine-tuning della torre visiva consente un adattamento rapido, suggerendo che il nostro benchmark pone sfide per la generalizzazione della torre visiva piuttosto che per le conoscenze e le capacità di ragionamento del backbone linguistico—un divario chiave tra gli attuali MLLMs e la percezione umana. In questa versione rilasciamo un sottoinsieme rappresentativo dei task del TET e introdurremo in futuro task e metodi più diversificati per migliorare la generalizzazione visiva.
English
Achieving human-like perception and reasoning in Multimodal Large Language
Models (MLLMs) remains a central challenge in artificial intelligence. While
recent research has primarily focused on enhancing reasoning capabilities in
MLLMs, a fundamental question persists: Can Multimodal Large Language Models
truly perceive the world as humans do? This paper shifts focus from reasoning
to perception. Rather than constructing benchmarks specifically for reasoning,
we introduce the Turing Eye Test (TET), a challenging perception-oriented
benchmark comprising four diagnostic tasks that evaluate MLLMs' performance on
synthetic images that humans process intuitively. Our findings reveal that
state-of-the-art MLLMs exhibit catastrophic failures on our perceptual tasks
trivial for humans. Both in-context learning and training on language
backbone-effective for previous benchmarks-fail to improve performance on our
tasks, while fine-tuning the vision tower enables rapid adaptation, suggesting
that our benchmark poses challenges for vision tower generalization rather than
for the knowledge and reasoning capabilities of the language backbone-a key gap
between current MLLMs and human perception. We release a representative subset
of TET tasks in this version, and will introduce more diverse tasks and methods
to enhance visual generalization in future work.