MMPerspective: I MLLM comprendono la prospettiva? Un benchmark completo per la percezione, il ragionamento e la robustezza della prospettiva
MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness
May 26, 2025
Autori: Yunlong Tang, Pinxin Liu, Mingqian Feng, Zhangyun Tan, Rui Mao, Chao Huang, Jing Bi, Yunzhong Xiao, Susan Liang, Hang Hua, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Chenliang Xu
cs.AI
Abstract
Comprendere la prospettiva è fondamentale per la percezione visiva umana, ma rimane poco chiaro fino a che punto i modelli linguistici multimodali di grandi dimensioni (MLLMs) interiorizzino la geometria prospettica. Introduciamo MMPerspective, il primo benchmark specificamente progettato per valutare sistematicamente la comprensione della prospettiva da parte degli MLLMs attraverso 10 task accuratamente elaborati, suddivisi in tre dimensioni complementari: Percezione della Prospettiva, Ragionamento e Robustezza. Il nostro benchmark comprende 2.711 istanze di immagini reali e sintetiche con 5.083 coppie domanda-risposta che esplorano capacità chiave, come la percezione dei punti di fuga e il conteggio, il ragionamento sul tipo di prospettiva, la comprensione delle relazioni tra linee nello spazio 3D, l'invarianza alle trasformazioni che preservano la prospettiva, ecc. Attraverso una valutazione completa di 43 MLLMs all'avanguardia, emergono limitazioni significative: mentre i modelli dimostrano competenza nei task percettivi superficiali, faticano nel ragionamento compositivo e nel mantenere la coerenza spaziale sotto perturbazioni. La nostra analisi rivela inoltre schemi interessanti tra architettura del modello, scala e capacità prospettiche, evidenziando sia colli di bottiglia nella robustezza che i benefici del prompting a catena di pensiero. MMPerspective stabilisce un banco di prova prezioso per diagnosticare e avanzare la comprensione spaziale nei sistemi visione-linguaggio. Risorse disponibili su: https://yunlong10.github.io/MMPerspective/
English
Understanding perspective is fundamental to human visual perception, yet the
extent to which multimodal large language models (MLLMs) internalize
perspective geometry remains unclear. We introduce MMPerspective, the first
benchmark specifically designed to systematically evaluate MLLMs' understanding
of perspective through 10 carefully crafted tasks across three complementary
dimensions: Perspective Perception, Reasoning, and Robustness. Our benchmark
comprises 2,711 real-world and synthetic image instances with 5,083
question-answer pairs that probe key capabilities, such as vanishing point
perception and counting, perspective type reasoning, line relationship
understanding in 3D space, invariance to perspective-preserving
transformations, etc. Through a comprehensive evaluation of 43 state-of-the-art
MLLMs, we uncover significant limitations: while models demonstrate competence
on surface-level perceptual tasks, they struggle with compositional reasoning
and maintaining spatial consistency under perturbations. Our analysis further
reveals intriguing patterns between model architecture, scale, and perspective
capabilities, highlighting both robustness bottlenecks and the benefits of
chain-of-thought prompting. MMPerspective establishes a valuable testbed for
diagnosing and advancing spatial understanding in vision-language systems.
Resources available at: https://yunlong10.github.io/MMPerspective/