MMPerspective: Понимают ли MLLM перспективу? Комплексный бенчмарк для оценки восприятия, рассуждений и устойчивости к перспективе
MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness
May 26, 2025
Авторы: Yunlong Tang, Pinxin Liu, Mingqian Feng, Zhangyun Tan, Rui Mao, Chao Huang, Jing Bi, Yunzhong Xiao, Susan Liang, Hang Hua, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Chenliang Xu
cs.AI
Аннотация
Понимание перспективы является фундаментальным аспектом человеческого зрительного восприятия, однако степень, в которой мультимодальные большие языковые модели (MLLMs) усваивают геометрию перспективы, остается неясной. Мы представляем MMPerspective — первый бенчмарк, специально разработанный для систематической оценки понимания перспективы MLLMs с помощью 10 тщательно продуманных задач, охватывающих три взаимодополняющих аспекта: восприятие перспективы, рассуждение и устойчивость. Наш бенчмарк включает 2 711 реальных и синтетических изображений с 5 083 парами вопросов и ответов, которые исследуют ключевые способности, такие как восприятие и подсчет точек схода, рассуждение о типах перспективы, понимание отношений линий в трехмерном пространстве, инвариантность к преобразованиям, сохраняющим перспективу, и т.д. В результате всесторонней оценки 43 современных MLLMs мы выявили значительные ограничения: хотя модели демонстрируют компетентность в поверхностных перцептивных задачах, они испытывают трудности с композиционным рассуждением и поддержанием пространственной согласованности при возмущениях. Наш анализ также выявляет интересные закономерности между архитектурой модели, масштабом и способностями к пониманию перспективы, подчеркивая как узкие места в устойчивости, так и преимущества цепочек рассуждений (chain-of-thought prompting). MMPerspective создает ценную основу для диагностики и улучшения пространственного понимания в системах, объединяющих зрение и язык. Ресурсы доступны по адресу: https://yunlong10.github.io/MMPerspective/
English
Understanding perspective is fundamental to human visual perception, yet the
extent to which multimodal large language models (MLLMs) internalize
perspective geometry remains unclear. We introduce MMPerspective, the first
benchmark specifically designed to systematically evaluate MLLMs' understanding
of perspective through 10 carefully crafted tasks across three complementary
dimensions: Perspective Perception, Reasoning, and Robustness. Our benchmark
comprises 2,711 real-world and synthetic image instances with 5,083
question-answer pairs that probe key capabilities, such as vanishing point
perception and counting, perspective type reasoning, line relationship
understanding in 3D space, invariance to perspective-preserving
transformations, etc. Through a comprehensive evaluation of 43 state-of-the-art
MLLMs, we uncover significant limitations: while models demonstrate competence
on surface-level perceptual tasks, they struggle with compositional reasoning
and maintaining spatial consistency under perturbations. Our analysis further
reveals intriguing patterns between model architecture, scale, and perspective
capabilities, highlighting both robustness bottlenecks and the benefits of
chain-of-thought prompting. MMPerspective establishes a valuable testbed for
diagnosing and advancing spatial understanding in vision-language systems.
Resources available at: https://yunlong10.github.io/MMPerspective/Summary
AI-Generated Summary