3DSRBench: Комплексный бенчмарк пространственного мышления в 3D
3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark
December 10, 2024
Авторы: Wufei Ma, Haoyu Chen, Guofeng Zhang, Celso M de Melo, Alan Yuille, Jieneng Chen
cs.AI
Аннотация
Пространственное 3D-мышление - это способность анализировать и интерпретировать положения, ориентации и пространственные отношения объектов в трехмерном пространстве. Это позволяет моделям развивать всеобъемлющее понимание трехмерной сцены, обеспечивая их применимость в более широком спектре областей, таких как автономная навигация, робототехника и AR/VR. Хотя большие многомодальные модели (LMM) достигли значительного прогресса в широком спектре задач понимания изображений и видео, их способности выполнять пространственное 3D-мышление на разнообразных естественных изображениях изучены менее подробно. В данной работе мы представляем первый всесторонний бенчмарк пространственного 3D-мышления, 3DSRBench, с 2 772 вручную аннотированными вопросно-ответными парами изображений по 12 типам вопросов. Мы проводим надежную и тщательную оценку способностей пространственного 3D-мышления, сбалансировав распределение данных и применив новую стратегию FlipEval. Для дальнейшего изучения устойчивости пространственного 3D-мышления относительно трехмерных точек зрения камеры наш 3DSRBench включает два подмножества с вопросами пространственного 3D-мышления на сопоставленных изображениях с общими и необычными точками зрения. Мы проводим оценку широкого спектра открытых и закрытых LMM, выявляя их ограничения в различных аспектах трехмерного восприятия, таких как высота, ориентация, местоположение и многократное рассуждение о объектах, а также их ухудшенную производительность на изображениях с необычными точками зрения камеры. Наш 3DSRBench предоставляет ценные результаты и понимание для будущего развития LMM с сильными способностями к 3D-мышлению. Наша страница проекта и набор данных доступны по адресу https://3dsrbench.github.io.
English
3D spatial reasoning is the ability to analyze and interpret the positions,
orientations, and spatial relationships of objects within the 3D space. This
allows models to develop a comprehensive understanding of the 3D scene,
enabling their applicability to a broader range of areas, such as autonomous
navigation, robotics, and AR/VR. While large multi-modal models (LMMs) have
achieved remarkable progress in a wide range of image and video understanding
tasks, their capabilities to perform 3D spatial reasoning on diverse natural
images are less studied. In this work we present the first comprehensive 3D
spatial reasoning benchmark, 3DSRBench, with 2,772 manually annotated visual
question-answer pairs across 12 question types. We conduct robust and thorough
evaluation of 3D spatial reasoning capabilities by balancing the data
distribution and adopting a novel FlipEval strategy. To further study the
robustness of 3D spatial reasoning w.r.t. camera 3D viewpoints, our 3DSRBench
includes two subsets with 3D spatial reasoning questions on paired images with
common and uncommon viewpoints. We benchmark a wide range of open-sourced and
proprietary LMMs, uncovering their limitations in various aspects of 3D
awareness, such as height, orientation, location, and multi-object reasoning,
as well as their degraded performance on images with uncommon camera
viewpoints. Our 3DSRBench provide valuable findings and insights about the
future development of LMMs with strong 3D reasoning capabilities. Our project
page and dataset is available https://3dsrbench.github.io.Summary
AI-Generated Summary