Pixels, motifs, mais pas de poésie : Voir le monde comme les humains
Pixels, Patterns, but No Poetry: To See The World like Humans
July 21, 2025
papers.authors: Hongcheng Gao, Zihao Huang, Lin Xu, Jingyi Tang, Xinhao Li, Yue Liu, Haoyang Li, Taihang Hu, Minhua Lin, Xinlong Yang, Ge Wu, Balong Bi, Hongyu Chen, Wentao Zhang
cs.AI
papers.abstract
Atteindre une perception et un raisonnement similaires à ceux des humains dans les Modèles de Langage Multimodaux de Grande Taille (MLLMs) reste un défi central en intelligence artificielle. Bien que les recherches récentes se soient principalement concentrées sur l'amélioration des capacités de raisonnement des MLLMs, une question fondamentale persiste : les Modèles de Langage Multimodaux de Grande Taille peuvent-ils vraiment percevoir le monde comme les humains ? Cet article déplace l'attention du raisonnement vers la perception. Plutôt que de construire des benchmarks spécifiquement pour le raisonnement, nous introduisons le Test de l'Œil de Turing (TET), un benchmark orienté vers la perception et particulièrement exigeant, composé de quatre tâches diagnostiques qui évaluent les performances des MLLMs sur des images synthétiques que les humains traitent intuitivement. Nos résultats révèlent que les MLLMs de pointe présentent des échecs catastrophiques sur nos tâches perceptives, pourtant triviales pour les humains. L'apprentissage en contexte et l'entraînement sur le backbone linguistique, efficaces pour les benchmarks précédents, échouent à améliorer les performances sur nos tâches, tandis que le fine-tuning de la tour de vision permet une adaptation rapide, suggérant que notre benchmark pose des défis pour la généralisation de la tour de vision plutôt que pour les connaissances et les capacités de raisonnement du backbone linguistique - un écart clé entre les MLLMs actuels et la perception humaine. Nous publions un sous-ensemble représentatif des tâches du TET dans cette version, et introduirons des tâches et méthodes plus diversifiées pour améliorer la généralisation visuelle dans les travaux futurs.
English
Achieving human-like perception and reasoning in Multimodal Large Language
Models (MLLMs) remains a central challenge in artificial intelligence. While
recent research has primarily focused on enhancing reasoning capabilities in
MLLMs, a fundamental question persists: Can Multimodal Large Language Models
truly perceive the world as humans do? This paper shifts focus from reasoning
to perception. Rather than constructing benchmarks specifically for reasoning,
we introduce the Turing Eye Test (TET), a challenging perception-oriented
benchmark comprising four diagnostic tasks that evaluate MLLMs' performance on
synthetic images that humans process intuitively. Our findings reveal that
state-of-the-art MLLMs exhibit catastrophic failures on our perceptual tasks
trivial for humans. Both in-context learning and training on language
backbone-effective for previous benchmarks-fail to improve performance on our
tasks, while fine-tuning the vision tower enables rapid adaptation, suggesting
that our benchmark poses challenges for vision tower generalization rather than
for the knowledge and reasoning capabilities of the language backbone-a key gap
between current MLLMs and human perception. We release a representative subset
of TET tasks in this version, and will introduce more diverse tasks and methods
to enhance visual generalization in future work.