3DSRBench : un banc d'essai complet pour l'évaluation du raisonnement spatial en 3D
3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark
December 10, 2024
Auteurs: Wufei Ma, Haoyu Chen, Guofeng Zhang, Celso M de Melo, Alan Yuille, Jieneng Chen
cs.AI
Résumé
Le raisonnement spatial en 3D est la capacité d'analyser et d'interpréter les positions, orientations et relations spatiales des objets dans l'espace en 3D. Cela permet aux modèles de développer une compréhension globale de la scène en 3D, ce qui rend leur application possible dans un éventail plus large de domaines, tels que la navigation autonome, la robotique et la RA/RV. Alors que les grands modèles multimodaux (LMMs) ont réalisé des progrès remarquables dans un large éventail de tâches de compréhension d'images et de vidéos, leurs capacités à effectuer un raisonnement spatial en 3D sur des images naturelles diverses sont moins étudiées. Dans ce travail, nous présentons le premier banc d'essai complet de raisonnement spatial en 3D, 3DSRBench, avec 2 772 paires de questions-réponses visuelles annotées manuellement réparties sur 12 types de questions. Nous menons une évaluation robuste et approfondie des capacités de raisonnement spatial en 3D en équilibrant la distribution des données et en adoptant une nouvelle stratégie FlipEval. Pour étudier davantage la robustesse du raisonnement spatial en 3D par rapport aux points de vue en 3D de la caméra, notre 3DSRBench comprend deux sous-ensembles avec des questions de raisonnement spatial en 3D sur des images appariées avec des points de vue communs et non communs. Nous évaluons un large éventail de LMMs open source et propriétaires, mettant en lumière leurs limitations dans divers aspects de la conscience en 3D, tels que la hauteur, l'orientation, l'emplacement et le raisonnement multi-objets, ainsi que leur performance dégradée sur des images avec des points de vue de caméra non communs. Notre 3DSRBench fournit des résultats et des perspectives précieux sur le développement futur de LMMs dotés de solides capacités de raisonnement en 3D. Notre page de projet et notre ensemble de données sont disponibles sur https://3dsrbench.github.io.
English
3D spatial reasoning is the ability to analyze and interpret the positions,
orientations, and spatial relationships of objects within the 3D space. This
allows models to develop a comprehensive understanding of the 3D scene,
enabling their applicability to a broader range of areas, such as autonomous
navigation, robotics, and AR/VR. While large multi-modal models (LMMs) have
achieved remarkable progress in a wide range of image and video understanding
tasks, their capabilities to perform 3D spatial reasoning on diverse natural
images are less studied. In this work we present the first comprehensive 3D
spatial reasoning benchmark, 3DSRBench, with 2,772 manually annotated visual
question-answer pairs across 12 question types. We conduct robust and thorough
evaluation of 3D spatial reasoning capabilities by balancing the data
distribution and adopting a novel FlipEval strategy. To further study the
robustness of 3D spatial reasoning w.r.t. camera 3D viewpoints, our 3DSRBench
includes two subsets with 3D spatial reasoning questions on paired images with
common and uncommon viewpoints. We benchmark a wide range of open-sourced and
proprietary LMMs, uncovering their limitations in various aspects of 3D
awareness, such as height, orientation, location, and multi-object reasoning,
as well as their degraded performance on images with uncommon camera
viewpoints. Our 3DSRBench provide valuable findings and insights about the
future development of LMMs with strong 3D reasoning capabilities. Our project
page and dataset is available https://3dsrbench.github.io.Summary
AI-Generated Summary