MMPerspective: Os MLLMs Compreendem a Perspectiva? Um Benchmark Abrangente para Percepção, Raciocínio e Robustez de Perspectiva
MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness
May 26, 2025
Autores: Yunlong Tang, Pinxin Liu, Mingqian Feng, Zhangyun Tan, Rui Mao, Chao Huang, Jing Bi, Yunzhong Xiao, Susan Liang, Hang Hua, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Chenliang Xu
cs.AI
Resumo
Compreender a perspectiva é fundamental para a percepção visual humana, mas a extensão em que os modelos de linguagem multimodal de grande escala (MLLMs) internalizam a geometria da perspectiva permanece incerta. Apresentamos o MMPerspective, o primeiro benchmark especificamente projetado para avaliar sistematicamente o entendimento da perspectiva pelos MLLMs por meio de 10 tarefas cuidadosamente elaboradas em três dimensões complementares: Percepção de Perspectiva, Raciocínio e Robustez. Nosso benchmark compreende 2.711 instâncias de imagens reais e sintéticas com 5.083 pares de perguntas e respostas que investigam capacidades-chave, como percepção e contagem de pontos de fuga, raciocínio sobre tipos de perspectiva, compreensão de relações de linhas no espaço 3D, invariância a transformações que preservam a perspectiva, entre outros. Por meio de uma avaliação abrangente de 43 MLLMs de última geração, descobrimos limitações significativas: embora os modelos demonstrem competência em tarefas perceptivas de superfície, eles lutam com o raciocínio composicional e a manutenção da consistência espacial sob perturbações. Nossa análise revela ainda padrões intrigantes entre arquitetura, escala e capacidades de perspectiva dos modelos, destacando tanto gargalos de robustez quanto os benefícios do prompting em cadeia de pensamento. O MMPerspective estabelece um valioso campo de testes para diagnosticar e avançar o entendimento espacial em sistemas de visão e linguagem. Recursos disponíveis em: https://yunlong10.github.io/MMPerspective/
English
Understanding perspective is fundamental to human visual perception, yet the
extent to which multimodal large language models (MLLMs) internalize
perspective geometry remains unclear. We introduce MMPerspective, the first
benchmark specifically designed to systematically evaluate MLLMs' understanding
of perspective through 10 carefully crafted tasks across three complementary
dimensions: Perspective Perception, Reasoning, and Robustness. Our benchmark
comprises 2,711 real-world and synthetic image instances with 5,083
question-answer pairs that probe key capabilities, such as vanishing point
perception and counting, perspective type reasoning, line relationship
understanding in 3D space, invariance to perspective-preserving
transformations, etc. Through a comprehensive evaluation of 43 state-of-the-art
MLLMs, we uncover significant limitations: while models demonstrate competence
on surface-level perceptual tasks, they struggle with compositional reasoning
and maintaining spatial consistency under perturbations. Our analysis further
reveals intriguing patterns between model architecture, scale, and perspective
capabilities, highlighting both robustness bottlenecks and the benefits of
chain-of-thought prompting. MMPerspective establishes a valuable testbed for
diagnosing and advancing spatial understanding in vision-language systems.
Resources available at: https://yunlong10.github.io/MMPerspective/