ChatPaper.aiChatPaper

MMPerspective : Les MLLM comprennent-ils la perspective ? Un benchmark complet pour la perception, le raisonnement et la robustesse des perspectives

MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness

May 26, 2025
Auteurs: Yunlong Tang, Pinxin Liu, Mingqian Feng, Zhangyun Tan, Rui Mao, Chao Huang, Jing Bi, Yunzhong Xiao, Susan Liang, Hang Hua, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Chenliang Xu
cs.AI

Résumé

Comprendre la perspective est fondamental pour la perception visuelle humaine, mais la mesure dans laquelle les modèles de langage multimodaux de grande taille (MLLMs) intériorisent la géométrie de la perspective reste incertaine. Nous présentons MMPerspective, le premier benchmark spécifiquement conçu pour évaluer systématiquement la compréhension de la perspective par les MLLMs à travers 10 tâches soigneusement élaborées, couvrant trois dimensions complémentaires : Perception de la perspective, Raisonnement et Robustesse. Notre benchmark comprend 2 711 instances d'images réelles et synthétiques avec 5 083 paires question-réponse qui sondent des capacités clés, telles que la perception des points de fuite et le décompte, le raisonnement sur les types de perspective, la compréhension des relations de lignes dans l'espace 3D, l'invariance aux transformations préservant la perspective, etc. À travers une évaluation approfondie de 43 MLLMs de pointe, nous mettons en lumière des limitations significatives : bien que les modèles démontrent des compétences sur des tâches perceptives de surface, ils peinent avec le raisonnement compositionnel et le maintien de la cohérence spatiale face à des perturbations. Notre analyse révèle en outre des motifs intrigants entre l'architecture des modèles, leur échelle et leurs capacités de perspective, soulignant à la fois les goulots d'étranglement en matière de robustesse et les avantages de l'incitation en chaîne de pensée. MMPerspective établit un banc d'essai précieux pour diagnostiquer et faire progresser la compréhension spatiale dans les systèmes vision-langage. Ressources disponibles à l'adresse : https://yunlong10.github.io/MMPerspective/
English
Understanding perspective is fundamental to human visual perception, yet the extent to which multimodal large language models (MLLMs) internalize perspective geometry remains unclear. We introduce MMPerspective, the first benchmark specifically designed to systematically evaluate MLLMs' understanding of perspective through 10 carefully crafted tasks across three complementary dimensions: Perspective Perception, Reasoning, and Robustness. Our benchmark comprises 2,711 real-world and synthetic image instances with 5,083 question-answer pairs that probe key capabilities, such as vanishing point perception and counting, perspective type reasoning, line relationship understanding in 3D space, invariance to perspective-preserving transformations, etc. Through a comprehensive evaluation of 43 state-of-the-art MLLMs, we uncover significant limitations: while models demonstrate competence on surface-level perceptual tasks, they struggle with compositional reasoning and maintaining spatial consistency under perturbations. Our analysis further reveals intriguing patterns between model architecture, scale, and perspective capabilities, highlighting both robustness bottlenecks and the benefits of chain-of-thought prompting. MMPerspective establishes a valuable testbed for diagnosing and advancing spatial understanding in vision-language systems. Resources available at: https://yunlong10.github.io/MMPerspective/

Summary

AI-Generated Summary

PDF61May 28, 2025