ChatPaper.aiChatPaper

Ver desde otra perspectiva: Evaluación de la comprensión multi-vista en MLLMs

Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs

April 21, 2025
Autores: Chun-Hsiao Yeh, Chenyu Wang, Shengbang Tong, Ta-Ying Cheng, Rouyu Wang, Tianzhe Chu, Yuexiang Zhai, Yubei Chen, Shenghua Gao, Yi Ma
cs.AI

Resumen

La comprensión multi-vista, la capacidad de reconciliar información visual desde diversos puntos de vista para una navegación, manipulación y comprensión de escenas 3D efectivas, representa un desafío fundamental en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) destinados a ser utilizados como agentes corporizados. Si bien los MLLMs recientes han mostrado avances impresionantes en razonamiento y planificación de alto nivel, a menudo se quedan cortos cuando se enfrentan a la consistencia geométrica multi-vista y la correspondencia entre vistas. Para evaluar de manera integral los desafíos de los MLLMs en el razonamiento de escenas multi-vista, proponemos All-Angles Bench, un benchmark que incluye más de 2,100 pares de preguntas-respuestas multi-vista cuidadosamente anotadas por humanos en 90 escenas del mundo real. Nuestras seis tareas (conteo, identificación de atributos, distancia relativa, dirección relativa, manipulación de objetos y estimación de la pose de la cámara) prueban específicamente la correspondencia geométrica del modelo y su capacidad para alinear información de manera consistente entre vistas. Nuestros extensos experimentos, que evalúan 27 MLLMs representativos, incluyendo Gemini-2.0-Flash, Claude-3.7-Sonnet y GPT-4o, en comparación con evaluadores humanos, revelan una brecha de rendimiento sustancial, indicando que los MLLMs actuales aún están lejos de alcanzar el nivel de competencia humana. A través de un análisis en profundidad, demostramos que los MLLMs tienen un desempeño particularmente deficiente en dos aspectos: (1) la correspondencia entre vistas para vistas parcialmente ocluidas y (2) el establecimiento de poses de cámara aproximadas. Estos hallazgos resaltan la necesidad de refinamientos específicos del dominio o módulos que incorporen una mayor conciencia multi-vista. Creemos que nuestro All-Angles Bench ofrece valiosas perspectivas y contribuye a cerrar la brecha entre los MLLMs y la comprensión multi-vista a nivel humano. El proyecto y el benchmark están disponibles públicamente en https://danielchyeh.github.io/All-Angles-Bench/.
English
Multi-view understanding, the ability to reconcile visual information across diverse viewpoints for effective navigation, manipulation, and 3D scene comprehension, is a fundamental challenge in Multi-Modal Large Language Models (MLLMs) to be used as embodied agents. While recent MLLMs have shown impressive advances in high-level reasoning and planning, they frequently fall short when confronted with multi-view geometric consistency and cross-view correspondence. To comprehensively evaluate the challenges of MLLMs in multi-view scene reasoning, we propose All-Angles Bench, a benchmark of over 2,100 human carefully annotated multi-view question-answer pairs across 90 diverse real-world scenes. Our six tasks (counting, attribute identification, relative distance, relative direction, object manipulation, and camera pose estimation) specifically test model's geometric correspondence and the capacity to align information consistently across views. Our extensive experiments, benchmark on 27 representative MLLMs including Gemini-2.0-Flash, Claude-3.7-Sonnet, and GPT-4o against human evaluators reveals a substantial performance gap, indicating that current MLLMs remain far from human-level proficiency. Through in-depth analysis, we show that MLLMs are particularly underperforming under two aspects: (1) cross-view correspondence for partially occluded views and (2) establishing the coarse camera poses. These findings highlight the necessity of domain-specific refinements or modules that embed stronger multi-view awareness. We believe that our All-Angles Bench offers valuable insights and contribute to bridging the gap between MLLMs and human-level multi-view understanding. The project and benchmark are publicly available at https://danielchyeh.github.io/All-Angles-Bench/.

Summary

AI-Generated Summary

PDF222April 22, 2025