ChatPaper.aiChatPaper

Pixels, motifs, mais pas de poésie : Voir le monde comme les humains

Pixels, Patterns, but No Poetry: To See The World like Humans

July 21, 2025
papers.authors: Hongcheng Gao, Zihao Huang, Lin Xu, Jingyi Tang, Xinhao Li, Yue Liu, Haoyang Li, Taihang Hu, Minhua Lin, Xinlong Yang, Ge Wu, Balong Bi, Hongyu Chen, Wentao Zhang
cs.AI

papers.abstract

Atteindre une perception et un raisonnement similaires à ceux des humains dans les Modèles de Langage Multimodaux de Grande Taille (MLLMs) reste un défi central en intelligence artificielle. Bien que les recherches récentes se soient principalement concentrées sur l'amélioration des capacités de raisonnement des MLLMs, une question fondamentale persiste : les Modèles de Langage Multimodaux de Grande Taille peuvent-ils vraiment percevoir le monde comme les humains ? Cet article déplace l'attention du raisonnement vers la perception. Plutôt que de construire des benchmarks spécifiquement pour le raisonnement, nous introduisons le Test de l'Œil de Turing (TET), un benchmark orienté vers la perception et particulièrement exigeant, composé de quatre tâches diagnostiques qui évaluent les performances des MLLMs sur des images synthétiques que les humains traitent intuitivement. Nos résultats révèlent que les MLLMs de pointe présentent des échecs catastrophiques sur nos tâches perceptives, pourtant triviales pour les humains. L'apprentissage en contexte et l'entraînement sur le backbone linguistique, efficaces pour les benchmarks précédents, échouent à améliorer les performances sur nos tâches, tandis que le fine-tuning de la tour de vision permet une adaptation rapide, suggérant que notre benchmark pose des défis pour la généralisation de la tour de vision plutôt que pour les connaissances et les capacités de raisonnement du backbone linguistique - un écart clé entre les MLLMs actuels et la perception humaine. Nous publions un sous-ensemble représentatif des tâches du TET dans cette version, et introduirons des tâches et méthodes plus diversifiées pour améliorer la généralisation visuelle dans les travaux futurs.
English
Achieving human-like perception and reasoning in Multimodal Large Language Models (MLLMs) remains a central challenge in artificial intelligence. While recent research has primarily focused on enhancing reasoning capabilities in MLLMs, a fundamental question persists: Can Multimodal Large Language Models truly perceive the world as humans do? This paper shifts focus from reasoning to perception. Rather than constructing benchmarks specifically for reasoning, we introduce the Turing Eye Test (TET), a challenging perception-oriented benchmark comprising four diagnostic tasks that evaluate MLLMs' performance on synthetic images that humans process intuitively. Our findings reveal that state-of-the-art MLLMs exhibit catastrophic failures on our perceptual tasks trivial for humans. Both in-context learning and training on language backbone-effective for previous benchmarks-fail to improve performance on our tasks, while fine-tuning the vision tower enables rapid adaptation, suggesting that our benchmark poses challenges for vision tower generalization rather than for the knowledge and reasoning capabilities of the language backbone-a key gap between current MLLMs and human perception. We release a representative subset of TET tasks in this version, and will introduce more diverse tasks and methods to enhance visual generalization in future work.
PDF636July 24, 2025