ChatPaper.aiChatPaper

3DSRBench:包括的な3D空間推論ベンチマーク

3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark

December 10, 2024
著者: Wufei Ma, Haoyu Chen, Guofeng Zhang, Celso M de Melo, Alan Yuille, Jieneng Chen
cs.AI

要旨

3D空間推論とは、3D空間内のオブジェクトの位置、向き、および空間的関係を分析および解釈する能力です。これにより、モデルは3Dシーンの包括的な理解を開発し、自律ナビゲーション、ロボティクス、AR/VRなど、さまざまな領域に適用できるようになります。大規模なマルチモーダルモデル(LMMs)は、画像とビデオ理解のさまざまなタスクで顕著な進歩を遂げていますが、多様な自然画像での3D空間推論の能力についてはあまり研究されていません。本研究では、初めての包括的な3D空間推論ベンチマークである3DSRBenchを紹介し、12種類の質問にわたる2,772の手動注釈つきビジュアル質問回答ペアを提供します。データ分布をバランスよく保ち、新しいFlipEval戦略を採用することで、3D空間推論能力の堅牢で徹底的な評価を行います。さらに、カメラの3D視点に関する3D空間推論の堅牢性をさらに調査するために、3DSRBenchには、共通および非共通の視点を持つペア画像に関する3D空間推論の質問を含む2つのサブセットが含まれています。さまざまなオープンソースおよびプロプライエタリなLMMsをベンチマークし、高さ、向き、位置、および複数オブジェクトの推論など、3D認識のさまざまな側面での制限、および非共通のカメラ視点を持つ画像での性能低下を明らかにします。3DSRBenchは、強力な3D推論能力を持つLMMsの将来の開発に関する貴重な知見と洞察を提供します。プロジェクトページとデータセットはhttps://3dsrbench.github.ioで入手可能です。
English
3D spatial reasoning is the ability to analyze and interpret the positions, orientations, and spatial relationships of objects within the 3D space. This allows models to develop a comprehensive understanding of the 3D scene, enabling their applicability to a broader range of areas, such as autonomous navigation, robotics, and AR/VR. While large multi-modal models (LMMs) have achieved remarkable progress in a wide range of image and video understanding tasks, their capabilities to perform 3D spatial reasoning on diverse natural images are less studied. In this work we present the first comprehensive 3D spatial reasoning benchmark, 3DSRBench, with 2,772 manually annotated visual question-answer pairs across 12 question types. We conduct robust and thorough evaluation of 3D spatial reasoning capabilities by balancing the data distribution and adopting a novel FlipEval strategy. To further study the robustness of 3D spatial reasoning w.r.t. camera 3D viewpoints, our 3DSRBench includes two subsets with 3D spatial reasoning questions on paired images with common and uncommon viewpoints. We benchmark a wide range of open-sourced and proprietary LMMs, uncovering their limitations in various aspects of 3D awareness, such as height, orientation, location, and multi-object reasoning, as well as their degraded performance on images with uncommon camera viewpoints. Our 3DSRBench provide valuable findings and insights about the future development of LMMs with strong 3D reasoning capabilities. Our project page and dataset is available https://3dsrbench.github.io.

Summary

AI-Generated Summary

PDF112December 12, 2024