ChatPaper.aiChatPaper

3DSRBench: Um Benchmark Abrangente de Raciocínio Espacial 3D

3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark

December 10, 2024
Autores: Wufei Ma, Haoyu Chen, Guofeng Zhang, Celso M de Melo, Alan Yuille, Jieneng Chen
cs.AI

Resumo

O raciocínio espacial 3D é a capacidade de analisar e interpretar as posições, orientações e relações espaciais dos objetos dentro do espaço 3D. Isso permite que os modelos desenvolvam uma compreensão abrangente da cena 3D, possibilitando sua aplicabilidade a uma gama mais ampla de áreas, como navegação autônoma, robótica e RA/RV. Embora os grandes modelos multimodais (LMMs) tenham alcançado progressos notáveis em uma ampla gama de tarefas de compreensão de imagens e vídeos, suas capacidades de realizar raciocínio espacial 3D em imagens naturais diversas são menos estudadas. Neste trabalho, apresentamos o primeiro benchmark abrangente de raciocínio espacial 3D, 3DSRBench, com 2.772 pares de perguntas e respostas visuais anotadas manualmente em 12 tipos de perguntas. Realizamos uma avaliação robusta e minuciosa das capacidades de raciocínio espacial 3D equilibrando a distribuição dos dados e adotando uma estratégia FlipEval inovadora. Para estudar ainda mais a robustez do raciocínio espacial 3D em relação aos pontos de vista 3D da câmera, nosso 3DSRBench inclui dois subconjuntos com perguntas de raciocínio espacial 3D em imagens emparelhadas com pontos de vista comuns e incomuns. Avaliamos uma ampla gama de LMMs de código aberto e proprietários, revelando suas limitações em vários aspectos da consciência 3D, como altura, orientação, localização e raciocínio multiobjeto, bem como seu desempenho degradado em imagens com pontos de vista de câmera incomuns. Nosso 3DSRBench fornece descobertas e insights valiosos sobre o futuro desenvolvimento de LMMs com fortes capacidades de raciocínio 3D. Nossa página do projeto e conjunto de dados estão disponíveis em https://3dsrbench.github.io.
English
3D spatial reasoning is the ability to analyze and interpret the positions, orientations, and spatial relationships of objects within the 3D space. This allows models to develop a comprehensive understanding of the 3D scene, enabling their applicability to a broader range of areas, such as autonomous navigation, robotics, and AR/VR. While large multi-modal models (LMMs) have achieved remarkable progress in a wide range of image and video understanding tasks, their capabilities to perform 3D spatial reasoning on diverse natural images are less studied. In this work we present the first comprehensive 3D spatial reasoning benchmark, 3DSRBench, with 2,772 manually annotated visual question-answer pairs across 12 question types. We conduct robust and thorough evaluation of 3D spatial reasoning capabilities by balancing the data distribution and adopting a novel FlipEval strategy. To further study the robustness of 3D spatial reasoning w.r.t. camera 3D viewpoints, our 3DSRBench includes two subsets with 3D spatial reasoning questions on paired images with common and uncommon viewpoints. We benchmark a wide range of open-sourced and proprietary LMMs, uncovering their limitations in various aspects of 3D awareness, such as height, orientation, location, and multi-object reasoning, as well as their degraded performance on images with uncommon camera viewpoints. Our 3DSRBench provide valuable findings and insights about the future development of LMMs with strong 3D reasoning capabilities. Our project page and dataset is available https://3dsrbench.github.io.

Summary

AI-Generated Summary

PDF112December 12, 2024