3DSRBench: Un banco de pruebas completo para el razonamiento espacial en 3D
3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark
December 10, 2024
Autores: Wufei Ma, Haoyu Chen, Guofeng Zhang, Celso M de Melo, Alan Yuille, Jieneng Chen
cs.AI
Resumen
El razonamiento espacial en 3D es la capacidad de analizar e interpretar las posiciones, orientaciones y relaciones espaciales de objetos dentro del espacio tridimensional. Esto permite que los modelos desarrollen una comprensión integral de la escena en 3D, lo que habilita su aplicabilidad en una amplia gama de áreas, como la navegación autónoma, la robótica y la RA/RV. Si bien los grandes modelos multimodales (LMMs, por sus siglas en inglés) han logrado un progreso notable en una amplia variedad de tareas de comprensión de imágenes y videos, se ha estudiado menos su capacidad para realizar razonamiento espacial en 3D en imágenes naturales diversas. En este trabajo presentamos el primer banco de pruebas exhaustivo de razonamiento espacial en 3D, 3DSRBench, con 2,772 pares de preguntas y respuestas visuales anotadas manualmente en 12 tipos de preguntas. Realizamos una evaluación sólida y exhaustiva de las capacidades de razonamiento espacial en 3D equilibrando la distribución de datos y adoptando una estrategia novedosa de FlipEval. Para estudiar aún más la robustez del razonamiento espacial en 3D con respecto a los puntos de vista en 3D de la cámara, nuestro 3DSRBench incluye dos subconjuntos con preguntas de razonamiento espacial en 3D sobre imágenes emparejadas con puntos de vista comunes e inusuales. Evaluamos una amplia gama de LMMs de código abierto y propietarios, descubriendo sus limitaciones en varios aspectos de la conciencia en 3D, como altura, orientación, ubicación y razonamiento multiobjeto, así como su rendimiento degradado en imágenes con puntos de vista de cámara inusuales. Nuestro 3DSRBench proporciona hallazgos e ideas valiosas sobre el futuro desarrollo de LMMs con sólidas capacidades de razonamiento en 3D. Nuestra página de proyecto y conjunto de datos están disponibles en https://3dsrbench.github.io.
English
3D spatial reasoning is the ability to analyze and interpret the positions,
orientations, and spatial relationships of objects within the 3D space. This
allows models to develop a comprehensive understanding of the 3D scene,
enabling their applicability to a broader range of areas, such as autonomous
navigation, robotics, and AR/VR. While large multi-modal models (LMMs) have
achieved remarkable progress in a wide range of image and video understanding
tasks, their capabilities to perform 3D spatial reasoning on diverse natural
images are less studied. In this work we present the first comprehensive 3D
spatial reasoning benchmark, 3DSRBench, with 2,772 manually annotated visual
question-answer pairs across 12 question types. We conduct robust and thorough
evaluation of 3D spatial reasoning capabilities by balancing the data
distribution and adopting a novel FlipEval strategy. To further study the
robustness of 3D spatial reasoning w.r.t. camera 3D viewpoints, our 3DSRBench
includes two subsets with 3D spatial reasoning questions on paired images with
common and uncommon viewpoints. We benchmark a wide range of open-sourced and
proprietary LMMs, uncovering their limitations in various aspects of 3D
awareness, such as height, orientation, location, and multi-object reasoning,
as well as their degraded performance on images with uncommon camera
viewpoints. Our 3DSRBench provide valuable findings and insights about the
future development of LMMs with strong 3D reasoning capabilities. Our project
page and dataset is available https://3dsrbench.github.io.Summary
AI-Generated Summary