ChatPaper.aiChatPaper

3DSRBench: Een uitgebreide benchmark voor 3D ruimtelijk redeneren

3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark

December 10, 2024
Auteurs: Wufei Ma, Haoyu Chen, Guofeng Zhang, Celso M de Melo, Alan Yuille, Jieneng Chen
cs.AI

Samenvatting

3D ruimtelijk redeneren is het vermogen om de posities, oriëntaties en ruimtelijke relaties van objecten binnen de 3D-ruimte te analyseren en interpreteren. Dit stelt modellen in staat om een uitgebreid begrip van de 3D-scene te ontwikkelen, waardoor ze toepasbaar zijn in een breder scala van gebieden, zoals autonome navigatie, robotica en AR/VR. Hoewel grote multimodale modellen (LMM's) opmerkelijke vooruitgang hebben geboekt in een breed scala van beeld- en videobegripstaken, is er minder onderzoek gedaan naar hun vermogen om 3D ruimtelijk redeneren uit te voeren op diverse natuurlijke beelden. In dit werk presenteren we het eerste uitgebreide 3D ruimtelijk redeneerbenchmark, 3DSRBench, met 2.772 handmatig geannoteerde visuele vraag-antwoordparen over 12 vraagtypen. We voeren een robuuste en grondige evaluatie uit van de 3D ruimtelijk redeneervermogens door de gegevensverdeling in balans te brengen en een nieuw FlipEval-strategie toe te passen. Om de robuustheid van 3D ruimtelijk redeneren t.o.v. camera 3D-standpunten verder te bestuderen, omvat onze 3DSRBench twee subsets met 3D ruimtelijke redeneervragen over gekoppelde beelden met gemeenschappelijke en ongebruikelijke standpunten. We beoordelen een breed scala aan open-source en eigen LMM's, waarbij we hun beperkingen blootleggen op verschillende aspecten van 3D-bewustzijn, zoals hoogte, oriëntatie, locatie en redeneren over meerdere objecten, evenals hun verminderde prestaties op beelden met ongebruikelijke camerastandpunten. Onze 3DSRBench levert waardevolle bevindingen en inzichten op over de toekomstige ontwikkeling van LMM's met sterke 3D redeneervermogens. Onze projectpagina en dataset zijn beschikbaar op https://3dsrbench.github.io.
English
3D spatial reasoning is the ability to analyze and interpret the positions, orientations, and spatial relationships of objects within the 3D space. This allows models to develop a comprehensive understanding of the 3D scene, enabling their applicability to a broader range of areas, such as autonomous navigation, robotics, and AR/VR. While large multi-modal models (LMMs) have achieved remarkable progress in a wide range of image and video understanding tasks, their capabilities to perform 3D spatial reasoning on diverse natural images are less studied. In this work we present the first comprehensive 3D spatial reasoning benchmark, 3DSRBench, with 2,772 manually annotated visual question-answer pairs across 12 question types. We conduct robust and thorough evaluation of 3D spatial reasoning capabilities by balancing the data distribution and adopting a novel FlipEval strategy. To further study the robustness of 3D spatial reasoning w.r.t. camera 3D viewpoints, our 3DSRBench includes two subsets with 3D spatial reasoning questions on paired images with common and uncommon viewpoints. We benchmark a wide range of open-sourced and proprietary LMMs, uncovering their limitations in various aspects of 3D awareness, such as height, orientation, location, and multi-object reasoning, as well as their degraded performance on images with uncommon camera viewpoints. Our 3DSRBench provide valuable findings and insights about the future development of LMMs with strong 3D reasoning capabilities. Our project page and dataset is available https://3dsrbench.github.io.
PDF122December 12, 2024