Raciocínio Espacial com Modelos de Visão-Linguagem em Cenas Ego-Cêntricas de Múltiplas Visões
Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View Scenes
September 8, 2025
Autores: Mohsen Gholami, Ahmad Rezaei, Zhou Weimin, Yong Zhang, Mohammad Akbari
cs.AI
Resumo
A compreensão das relações espaciais 3D continua sendo uma grande limitação dos atuais Modelos de Visão e Linguagem (VLMs). Trabalhos anteriores abordaram essa questão criando conjuntos de dados de perguntas e respostas (QA) espaciais baseados em imagens únicas ou vídeos de ambientes internos. No entanto, agentes de IA incorporados no mundo real, como robôs e carros autônomos, geralmente dependem de observações egocêntricas e multiview. Para isso, introduzimos o Ego3D-Bench, um novo benchmark projetado para avaliar as habilidades de raciocínio espacial de VLMs usando dados egocêntricos e multiview de ambientes externos. O Ego3D-Bench compreende mais de 8.600 pares de QA, criados com significativa participação de anotadores humanos para garantir qualidade e diversidade. Avaliamos 16 VLMs de última geração, incluindo GPT-4o, Gemini1.5-Pro, InternVL3 e Qwen2.5-VL. Nossos resultados revelam uma lacuna notável entre os escores de nível humano e o desempenho dos VLMs, destacando que os VLMs atuais ainda não atingem o nível de compreensão espacial humana. Para reduzir essa lacuna, propomos o Ego3D-VLM, um framework de pós-treinamento que aprimora o raciocínio espacial 3D de VLMs. O Ego3D-VLM gera um mapa cognitivo baseado em coordenadas 3D globais estimadas, resultando em uma melhoria média de 12% em QA de múltipla escolha e 56% na estimativa de distância absoluta. O Ego3D-VLM é modular e pode ser integrado a qualquer VLM existente. Juntos, o Ego3D-Bench e o Ego3D-VLM oferecem ferramentas valiosas para avançar em direção à compreensão espacial de nível humano em ambientes reais e multiview.
English
Understanding 3D spatial relationships remains a major limitation of current
Vision-Language Models (VLMs). Prior work has addressed this issue by creating
spatial question-answering (QA) datasets based on single images or indoor
videos. However, real-world embodied AI agents such as robots and self-driving
cars typically rely on ego-centric, multi-view observations. To this end, we
introduce Ego3D-Bench, a new benchmark designed to evaluate the spatial
reasoning abilities of VLMs using ego-centric, multi-view outdoor data.
Ego3D-Bench comprises over 8,600 QA pairs, created with significant involvement
from human annotators to ensure quality and diversity. We benchmark 16 SOTA
VLMs, including GPT-4o, Gemini1.5-Pro, InternVL3, and Qwen2.5-VL. Our results
reveal a notable performance gap between human level scores and VLM
performance, highlighting that current VLMs still fall short of human level
spatial understanding. To bridge this gap, we propose Ego3D-VLM, a
post-training framework that enhances 3D spatial reasoning of VLMs. Ego3D-VLM
generates cognitive map based on estimated global 3D coordinates, resulting in
12% average improvement on multi-choice QA and 56% average improvement on
absolute distance estimation. Ego3D-VLM is modular and can be integrated with
any existing VLM. Together, Ego3D-Bench and Ego3D-VLM offer valuable tools for
advancing toward human level spatial understanding in real-world, multi-view
environments.