Píxeles, Patrones, pero Sin Poesía: Ver el Mundo como los Humanos
Pixels, Patterns, but No Poetry: To See The World like Humans
July 21, 2025
Autores: Hongcheng Gao, Zihao Huang, Lin Xu, Jingyi Tang, Xinhao Li, Yue Liu, Haoyang Li, Taihang Hu, Minhua Lin, Xinlong Yang, Ge Wu, Balong Bi, Hongyu Chen, Wentao Zhang
cs.AI
Resumen
Lograr una percepción y razonamiento similares a los humanos en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) sigue siendo un desafío central en la inteligencia artificial. Si bien investigaciones recientes se han centrado principalmente en mejorar las capacidades de razonamiento en los MLLMs, persiste una pregunta fundamental: ¿Pueden los Modelos de Lenguaje Multimodales percibir el mundo como lo hacen los humanos? Este artículo cambia el enfoque del razonamiento a la percepción. En lugar de construir puntos de referencia específicos para el razonamiento, presentamos la Prueba del Ojo de Turing (TET, por sus siglas en inglés), un punto de referencia orientado a la percepción y desafiante que consta de cuatro tareas diagnósticas que evalúan el rendimiento de los MLLMs en imágenes sintéticas que los humanos procesan de manera intuitiva. Nuestros hallazgos revelan que los MLLMs más avanzados exhiben fallos catastróficos en nuestras tareas perceptivas, que son triviales para los humanos. Tanto el aprendizaje en contexto como el entrenamiento en el núcleo del lenguaje, efectivos para puntos de referencia anteriores, no logran mejorar el rendimiento en nuestras tareas, mientras que el ajuste fino de la torre visual permite una rápida adaptación, lo que sugiere que nuestro punto de referencia plantea desafíos para la generalización de la torre visual en lugar de para las capacidades de conocimiento y razonamiento del núcleo del lenguaje, una brecha clave entre los MLLMs actuales y la percepción humana. En esta versión, publicamos un subconjunto representativo de tareas de TET, y en trabajos futuros introduciremos tareas y métodos más diversos para mejorar la generalización visual.
English
Achieving human-like perception and reasoning in Multimodal Large Language
Models (MLLMs) remains a central challenge in artificial intelligence. While
recent research has primarily focused on enhancing reasoning capabilities in
MLLMs, a fundamental question persists: Can Multimodal Large Language Models
truly perceive the world as humans do? This paper shifts focus from reasoning
to perception. Rather than constructing benchmarks specifically for reasoning,
we introduce the Turing Eye Test (TET), a challenging perception-oriented
benchmark comprising four diagnostic tasks that evaluate MLLMs' performance on
synthetic images that humans process intuitively. Our findings reveal that
state-of-the-art MLLMs exhibit catastrophic failures on our perceptual tasks
trivial for humans. Both in-context learning and training on language
backbone-effective for previous benchmarks-fail to improve performance on our
tasks, while fine-tuning the vision tower enables rapid adaptation, suggesting
that our benchmark poses challenges for vision tower generalization rather than
for the knowledge and reasoning capabilities of the language backbone-a key gap
between current MLLMs and human perception. We release a representative subset
of TET tasks in this version, and will introduce more diverse tasks and methods
to enhance visual generalization in future work.