MMPerspective: ¿Entienden los MLLMs la perspectiva? Un punto de referencia integral para la percepción, el razonamiento y la robustez de la perspectiva
MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness
May 26, 2025
Autores: Yunlong Tang, Pinxin Liu, Mingqian Feng, Zhangyun Tan, Rui Mao, Chao Huang, Jing Bi, Yunzhong Xiao, Susan Liang, Hang Hua, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Chenliang Xu
cs.AI
Resumen
Comprender la perspectiva es fundamental para la percepción visual humana, sin embargo, el grado en que los modelos de lenguaje multimodal de gran escala (MLLMs) internalizan la geometría de la perspectiva sigue siendo incierto. Presentamos MMPerspective, el primer punto de referencia diseñado específicamente para evaluar sistemáticamente la comprensión de la perspectiva en los MLLMs a través de 10 tareas cuidadosamente elaboradas en tres dimensiones complementarias: Percepción de la Perspectiva, Razonamiento y Robustez. Nuestro punto de referencia comprende 2,711 instancias de imágenes del mundo real y sintéticas con 5,083 pares de preguntas y respuestas que exploran capacidades clave, como la percepción y conteo de puntos de fuga, el razonamiento sobre tipos de perspectiva, la comprensión de relaciones de líneas en el espacio 3D, la invariancia a transformaciones que preservan la perspectiva, etc. A través de una evaluación exhaustiva de 43 MLLMs de última generación, descubrimos limitaciones significativas: aunque los modelos demuestran competencia en tareas perceptivas superficiales, tienen dificultades con el razonamiento compositivo y el mantenimiento de la consistencia espacial bajo perturbaciones. Nuestro análisis revela además patrones intrigantes entre la arquitectura del modelo, su escala y las capacidades de perspectiva, destacando tanto los cuellos de botella en la robustez como los beneficios del encadenamiento de pensamientos. MMPerspective establece un valioso banco de pruebas para diagnosticar y avanzar en la comprensión espacial en sistemas de visión y lenguaje. Recursos disponibles en: https://yunlong10.github.io/MMPerspective/
English
Understanding perspective is fundamental to human visual perception, yet the
extent to which multimodal large language models (MLLMs) internalize
perspective geometry remains unclear. We introduce MMPerspective, the first
benchmark specifically designed to systematically evaluate MLLMs' understanding
of perspective through 10 carefully crafted tasks across three complementary
dimensions: Perspective Perception, Reasoning, and Robustness. Our benchmark
comprises 2,711 real-world and synthetic image instances with 5,083
question-answer pairs that probe key capabilities, such as vanishing point
perception and counting, perspective type reasoning, line relationship
understanding in 3D space, invariance to perspective-preserving
transformations, etc. Through a comprehensive evaluation of 43 state-of-the-art
MLLMs, we uncover significant limitations: while models demonstrate competence
on surface-level perceptual tasks, they struggle with compositional reasoning
and maintaining spatial consistency under perturbations. Our analysis further
reveals intriguing patterns between model architecture, scale, and perspective
capabilities, highlighting both robustness bottlenecks and the benefits of
chain-of-thought prompting. MMPerspective establishes a valuable testbed for
diagnosing and advancing spatial understanding in vision-language systems.
Resources available at: https://yunlong10.github.io/MMPerspective/