3DSRBench: Ein umfassender Benchmark für räumliches Denken in 3D
3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark
December 10, 2024
Autoren: Wufei Ma, Haoyu Chen, Guofeng Zhang, Celso M de Melo, Alan Yuille, Jieneng Chen
cs.AI
Zusammenfassung
Die räumliche 3D-Argumentation bezeichnet die Fähigkeit, die Positionen, Ausrichtungen und räumlichen Beziehungen von Objekten im 3D-Raum zu analysieren und zu interpretieren. Dies ermöglicht es Modellen, ein umfassendes Verständnis der 3D-Szene zu entwickeln, was ihre Anwendbarkeit auf eine breitere Palette von Bereichen wie autonomes Navigieren, Robotik und AR/VR ermöglicht. Während große multimodale Modelle (LMMs) bemerkenswerte Fortschritte in einer Vielzahl von Bild- und Videoverständnisaufgaben erzielt haben, ist ihre Fähigkeit zur Durchführung räumlicher 3D-Argumentation auf vielfältigen natürlichen Bildern weniger erforscht. In dieser Arbeit präsentieren wir den ersten umfassenden Benchmark für räumliche 3D-Argumentation, 3DSRBench, mit 2.772 manuell annotierten visuellen Frage-Antwort-Paaren über 12 Fragearten. Wir führen eine robuste und gründliche Bewertung der Fähigkeiten zur räumlichen 3D-Argumentation durch, indem wir die Datenverteilung ausbalancieren und eine neuartige FlipEval-Strategie anwenden. Um die Robustheit der räumlichen 3D-Argumentation hinsichtlich der 3D-Kameraperspektiven weiter zu untersuchen, enthält unser 3DSRBench zwei Untermengen mit räumlichen 3D-Argumentationsfragen zu gepaarten Bildern mit gemeinsamen und ungewöhnlichen Perspektiven. Wir bewerten eine breite Palette von Open-Source- und proprietären LMMs und decken ihre Einschränkungen in verschiedenen Aspekten des 3D-Verständnisses auf, wie Höhe, Ausrichtung, Position und Mehrfachobjekt-Argumentation, sowie ihre beeinträchtigte Leistung bei Bildern mit ungewöhnlichen Kameraperspektiven. Unser 3DSRBench liefert wertvolle Erkenntnisse und Einblicke in die zukünftige Entwicklung von LMMs mit starken 3D-Argumentationsfähigkeiten. Unsere Projektseite und Datensatz sind verfügbar unter https://3dsrbench.github.io.
English
3D spatial reasoning is the ability to analyze and interpret the positions,
orientations, and spatial relationships of objects within the 3D space. This
allows models to develop a comprehensive understanding of the 3D scene,
enabling their applicability to a broader range of areas, such as autonomous
navigation, robotics, and AR/VR. While large multi-modal models (LMMs) have
achieved remarkable progress in a wide range of image and video understanding
tasks, their capabilities to perform 3D spatial reasoning on diverse natural
images are less studied. In this work we present the first comprehensive 3D
spatial reasoning benchmark, 3DSRBench, with 2,772 manually annotated visual
question-answer pairs across 12 question types. We conduct robust and thorough
evaluation of 3D spatial reasoning capabilities by balancing the data
distribution and adopting a novel FlipEval strategy. To further study the
robustness of 3D spatial reasoning w.r.t. camera 3D viewpoints, our 3DSRBench
includes two subsets with 3D spatial reasoning questions on paired images with
common and uncommon viewpoints. We benchmark a wide range of open-sourced and
proprietary LMMs, uncovering their limitations in various aspects of 3D
awareness, such as height, orientation, location, and multi-object reasoning,
as well as their degraded performance on images with uncommon camera
viewpoints. Our 3DSRBench provide valuable findings and insights about the
future development of LMMs with strong 3D reasoning capabilities. Our project
page and dataset is available https://3dsrbench.github.io.Summary
AI-Generated Summary