MMPerspective: Verstehen MLLMs Perspektiven? Ein umfassender Benchmark für Perspektivwahrnehmung, -schlussfolgerung und -robustheit
MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness
May 26, 2025
Autoren: Yunlong Tang, Pinxin Liu, Mingqian Feng, Zhangyun Tan, Rui Mao, Chao Huang, Jing Bi, Yunzhong Xiao, Susan Liang, Hang Hua, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Chenliang Xu
cs.AI
Zusammenfassung
Das Verständnis von Perspektive ist grundlegend für die menschliche visuelle Wahrnehmung, doch das Ausmaß, in dem multimodale große Sprachmodelle (MLLMs) Perspektivgeometrie verinnerlichen, bleibt unklar. Wir stellen MMPerspective vor, den ersten Benchmark, der speziell entwickelt wurde, um das Verständnis von Perspektive durch MLLMs systematisch anhand von 10 sorgfältig gestalteten Aufgaben in drei komplementären Dimensionen zu bewerten: Perspektivwahrnehmung, -schlussfolgerung und -robustheit. Unser Benchmark umfasst 2.711 reale und synthetische Bildinstanzen mit 5.083 Frage-Antwort-Paaren, die Schlüsselfähigkeiten wie die Wahrnehmung von Fluchtpunkten und Zählen, die Schlussfolgerung von Perspektivtypen, das Verständnis von Linienbeziehungen im 3D-Raum, die Invarianz gegenüber perspektiverhaltenden Transformationen usw. untersuchen. Durch eine umfassende Bewertung von 43 state-of-the-art MLLMs decken wir erhebliche Einschränkungen auf: Während Modelle bei oberflächlichen Wahrnehmungsaufgaben Kompetenz zeigen, haben sie Schwierigkeiten mit kompositioneller Schlussfolgerung und der Aufrechterhaltung räumlicher Konsistenz unter Störungen. Unsere Analyse zeigt weiterhin interessante Muster zwischen Modellarchitektur, Skalierung und Perspektivfähigkeiten auf, die sowohl Robustheitsengpässe als auch die Vorteile von Chain-of-Thought-Prompting hervorheben. MMPerspective schafft eine wertvolle Testumgebung für die Diagnose und Weiterentwicklung des räumlichen Verständnisses in Vision-Sprache-Systemen. Ressourcen verfügbar unter: https://yunlong10.github.io/MMPerspective/
English
Understanding perspective is fundamental to human visual perception, yet the
extent to which multimodal large language models (MLLMs) internalize
perspective geometry remains unclear. We introduce MMPerspective, the first
benchmark specifically designed to systematically evaluate MLLMs' understanding
of perspective through 10 carefully crafted tasks across three complementary
dimensions: Perspective Perception, Reasoning, and Robustness. Our benchmark
comprises 2,711 real-world and synthetic image instances with 5,083
question-answer pairs that probe key capabilities, such as vanishing point
perception and counting, perspective type reasoning, line relationship
understanding in 3D space, invariance to perspective-preserving
transformations, etc. Through a comprehensive evaluation of 43 state-of-the-art
MLLMs, we uncover significant limitations: while models demonstrate competence
on surface-level perceptual tasks, they struggle with compositional reasoning
and maintaining spatial consistency under perturbations. Our analysis further
reveals intriguing patterns between model architecture, scale, and perspective
capabilities, highlighting both robustness bottlenecks and the benefits of
chain-of-thought prompting. MMPerspective establishes a valuable testbed for
diagnosing and advancing spatial understanding in vision-language systems.
Resources available at: https://yunlong10.github.io/MMPerspective/Summary
AI-Generated Summary