Пространственное рассуждение с использованием моделей "зрение-язык" в эгоцентричных многовидовых сценах
Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View Scenes
September 8, 2025
Авторы: Mohsen Gholami, Ahmad Rezaei, Zhou Weimin, Yong Zhang, Mohammad Akbari
cs.AI
Аннотация
Понимание трехмерных пространственных отношений остается серьезным ограничением современных моделей "Видение-Язык" (Vision-Language Models, VLMs). Предыдущие работы решали эту проблему путем создания наборов данных для вопросов и ответов (QA) на основе одиночных изображений или видео в помещении. Однако реальные воплощенные ИИ-агенты, такие как роботы и беспилотные автомобили, обычно полагаются на эгоцентричные, многовидовые наблюдения. В связи с этим мы представляем Ego3D-Bench — новый эталонный набор данных, предназначенный для оценки способностей VLMs к пространственному мышлению с использованием эгоцентричных, многовидовых данных на открытом воздухе. Ego3D-Bench включает более 8600 пар вопросов и ответов, созданных при активном участии аннотаторов для обеспечения качества и разнообразия. Мы тестируем 16 современных VLMs, включая GPT-4o, Gemini1.5-Pro, InternVL3 и Qwen2.5-VL. Наши результаты выявляют значительный разрыв между уровнем человеческих показателей и производительностью VLMs, подчеркивая, что текущие VLMs все еще отстают от человеческого уровня понимания пространства. Чтобы сократить этот разрыв, мы предлагаем Ego3D-VLM — посттренировочный фреймворк, который улучшает трехмерное пространственное мышление VLMs. Ego3D-VLM генерирует когнитивную карту на основе оцененных глобальных 3D-координат, что приводит к среднему улучшению на 12% в задачах с множественным выбором и на 56% в оценке абсолютного расстояния. Ego3D-VLM является модульным и может быть интегрирован с любой существующей VLM. Вместе Ego3D-Bench и Ego3D-VLM предлагают ценные инструменты для продвижения к человеческому уровню понимания пространства в реальных многовидовых средах.
English
Understanding 3D spatial relationships remains a major limitation of current
Vision-Language Models (VLMs). Prior work has addressed this issue by creating
spatial question-answering (QA) datasets based on single images or indoor
videos. However, real-world embodied AI agents such as robots and self-driving
cars typically rely on ego-centric, multi-view observations. To this end, we
introduce Ego3D-Bench, a new benchmark designed to evaluate the spatial
reasoning abilities of VLMs using ego-centric, multi-view outdoor data.
Ego3D-Bench comprises over 8,600 QA pairs, created with significant involvement
from human annotators to ensure quality and diversity. We benchmark 16 SOTA
VLMs, including GPT-4o, Gemini1.5-Pro, InternVL3, and Qwen2.5-VL. Our results
reveal a notable performance gap between human level scores and VLM
performance, highlighting that current VLMs still fall short of human level
spatial understanding. To bridge this gap, we propose Ego3D-VLM, a
post-training framework that enhances 3D spatial reasoning of VLMs. Ego3D-VLM
generates cognitive map based on estimated global 3D coordinates, resulting in
12% average improvement on multi-choice QA and 56% average improvement on
absolute distance estimation. Ego3D-VLM is modular and can be integrated with
any existing VLM. Together, Ego3D-Bench and Ego3D-VLM offer valuable tools for
advancing toward human level spatial understanding in real-world, multi-view
environments.