MMPerspective: Begrijpen MLLMs Perspectief? Een Uitgebreide Benchmark voor Perspectiefperceptie, Redenering en Robuustheid
MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness
May 26, 2025
Auteurs: Yunlong Tang, Pinxin Liu, Mingqian Feng, Zhangyun Tan, Rui Mao, Chao Huang, Jing Bi, Yunzhong Xiao, Susan Liang, Hang Hua, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Chenliang Xu
cs.AI
Samenvatting
Het begrijpen van perspectief is fundamenteel voor de menselijke visuele waarneming, maar de mate waarin multimodale grote taalmodellen (MLLMs) perspectiefgeometrie internaliseren, blijft onduidelijk. Wij introduceren MMPerspective, de eerste benchmark die specifiek is ontworpen om het begrip van perspectief door MLLMs systematisch te evalueren via 10 zorgvuldig ontworpen taken over drie complementaire dimensies: Perspectiefwaarneming, Redeneren en Robuustheid. Onze benchmark omvat 2.711 real-world en synthetische beeldinstanties met 5.083 vraag-antwoordparen die sleutelvaardigheden onderzoeken, zoals het waarnemen van verdwijnpunten en tellen, redeneren over perspectieftypen, het begrijpen van lijnrelaties in 3D-ruimte, invariantie onder perspectiefbehoudende transformaties, enz. Door een uitgebreide evaluatie van 43 state-of-the-art MLLMs, ontdekken we significante beperkingen: hoewel modellen competentie tonen bij oppervlakkige waarnemingstaken, hebben ze moeite met compositioneel redeneren en het behouden van ruimtelijke consistentie onder verstoringen. Onze analyse onthult verder intrigerende patronen tussen modelarchitectuur, schaal en perspectiefvaardigheden, waarbij zowel robuustheidsknelpunten als de voordelen van chain-of-thought prompting worden belicht. MMPerspective biedt een waardevolle testomgeving voor het diagnosticeren en bevorderen van ruimtelijk begrip in visie-taalsystemen. Bronnen beschikbaar op: https://yunlong10.github.io/MMPerspective/
English
Understanding perspective is fundamental to human visual perception, yet the
extent to which multimodal large language models (MLLMs) internalize
perspective geometry remains unclear. We introduce MMPerspective, the first
benchmark specifically designed to systematically evaluate MLLMs' understanding
of perspective through 10 carefully crafted tasks across three complementary
dimensions: Perspective Perception, Reasoning, and Robustness. Our benchmark
comprises 2,711 real-world and synthetic image instances with 5,083
question-answer pairs that probe key capabilities, such as vanishing point
perception and counting, perspective type reasoning, line relationship
understanding in 3D space, invariance to perspective-preserving
transformations, etc. Through a comprehensive evaluation of 43 state-of-the-art
MLLMs, we uncover significant limitations: while models demonstrate competence
on surface-level perceptual tasks, they struggle with compositional reasoning
and maintaining spatial consistency under perturbations. Our analysis further
reveals intriguing patterns between model architecture, scale, and perspective
capabilities, highlighting both robustness bottlenecks and the benefits of
chain-of-thought prompting. MMPerspective establishes a valuable testbed for
diagnosing and advancing spatial understanding in vision-language systems.
Resources available at: https://yunlong10.github.io/MMPerspective/