Raisonnement spatial avec des modèles vision-langage dans des scènes multi-vues égocentriques
Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View Scenes
September 8, 2025
papers.authors: Mohsen Gholami, Ahmad Rezaei, Zhou Weimin, Yong Zhang, Mohammad Akbari
cs.AI
papers.abstract
La compréhension des relations spatiales en 3D reste une limitation majeure des modèles actuels de vision et langage (VLMs). Les travaux précédents ont abordé ce problème en créant des ensembles de données de questions-réponses (QA) spatiales basées sur des images uniques ou des vidéos d'intérieur. Cependant, les agents d'IA incarnés dans le monde réel, tels que les robots et les voitures autonomes, s'appuient généralement sur des observations égocentriques et multi-vues. Dans cette optique, nous introduisons Ego3D-Bench, un nouveau benchmark conçu pour évaluer les capacités de raisonnement spatial des VLMs en utilisant des données égocentriques et multi-vues en extérieur. Ego3D-Bench comprend plus de 8 600 paires de questions-réponses, créées avec une implication significative d'annotateurs humains pour garantir qualité et diversité. Nous évaluons 16 VLMs de pointe, dont GPT-4o, Gemini1.5-Pro, InternVL3 et Qwen2.5-VL. Nos résultats révèlent un écart notable entre les performances des VLMs et les scores humains, soulignant que les VLMs actuels sont encore loin d'atteindre le niveau de compréhension spatiale humaine. Pour combler cet écart, nous proposons Ego3D-VLM, un cadre de post-formation qui améliore le raisonnement spatial en 3D des VLMs. Ego3D-VLM génère une carte cognitive basée sur des coordonnées 3D globales estimées, entraînant une amélioration moyenne de 12 % sur les QA à choix multiples et de 56 % sur l'estimation de distance absolue. Ego3D-VLM est modulaire et peut être intégré à tout VLM existant. Ensemble, Ego3D-Bench et Ego3D-VLM offrent des outils précieux pour progresser vers une compréhension spatiale de niveau humain dans des environnements réels et multi-vues.
English
Understanding 3D spatial relationships remains a major limitation of current
Vision-Language Models (VLMs). Prior work has addressed this issue by creating
spatial question-answering (QA) datasets based on single images or indoor
videos. However, real-world embodied AI agents such as robots and self-driving
cars typically rely on ego-centric, multi-view observations. To this end, we
introduce Ego3D-Bench, a new benchmark designed to evaluate the spatial
reasoning abilities of VLMs using ego-centric, multi-view outdoor data.
Ego3D-Bench comprises over 8,600 QA pairs, created with significant involvement
from human annotators to ensure quality and diversity. We benchmark 16 SOTA
VLMs, including GPT-4o, Gemini1.5-Pro, InternVL3, and Qwen2.5-VL. Our results
reveal a notable performance gap between human level scores and VLM
performance, highlighting that current VLMs still fall short of human level
spatial understanding. To bridge this gap, we propose Ego3D-VLM, a
post-training framework that enhances 3D spatial reasoning of VLMs. Ego3D-VLM
generates cognitive map based on estimated global 3D coordinates, resulting in
12% average improvement on multi-choice QA and 56% average improvement on
absolute distance estimation. Ego3D-VLM is modular and can be integrated with
any existing VLM. Together, Ego3D-Bench and Ego3D-VLM offer valuable tools for
advancing toward human level spatial understanding in real-world, multi-view
environments.