VIR-Bench : Évaluation de la compréhension géospatiale et temporelle des MLLM via la reconstruction d'itinéraires vidéo de voyage
VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction
September 23, 2025
papers.authors: Hao Wang, Eiki Murata, Lingfang Zhang, Ayako Sato, So Fukuda, Ziqi Yin, Wentao Hu, Keisuke Nakao, Yusuke Nakamura, Sebastian Zwirner, Yi-Chia Chen, Hiroyuki Otomo, Hiroki Ouchi, Daisuke Kawahara
cs.AI
papers.abstract
Les récentes avancées dans les modèles de langage multimodaux (MLLMs) ont considérablement amélioré les capacités de compréhension vidéo, ouvrant de nouvelles possibilités pour des applications pratiques. Cependant, les benchmarks vidéo actuels se concentrent principalement sur des scènes intérieures ou des activités extérieures de courte durée, laissant largement inexplorés les défis associés aux voyages longue distance. La maîtrise des trajectoires géospatiales-temporelles étendues est cruciale pour les MLLMs de nouvelle génération, soutenant des tâches du monde réel telles que la planification et la navigation pour l'IA incarnée. Pour combler cette lacune, nous présentons VIR-Bench, un nouveau benchmark composé de 200 vidéos de voyage qui cadre la reconstruction d'itinéraire comme une tâche complexe conçue pour évaluer et faire progresser l'intelligence géospatiale-temporelle des MLLMs. Les résultats expérimentaux révèlent que les MLLMs de pointe, y compris les modèles propriétaires, peinent à obtenir des scores élevés, soulignant la difficulté de traiter des vidéos couvrant des échelles spatiales et temporelles étendues. De plus, nous menons une étude de cas approfondie dans laquelle nous développons un prototype d'agent de planification de voyage qui exploite les insights tirés de VIR-Bench. Les recommandations d'itinéraire nettement améliorées de l'agent vérifient que notre protocole d'évaluation non seulement benchmarke efficacement les modèles, mais se traduit également par des gains de performance concrets dans les applications orientées utilisateur.
English
Recent advances in multimodal large language models (MLLMs) have
significantly enhanced video understanding capabilities, opening new
possibilities for practical applications. Yet current video benchmarks focus
largely on indoor scenes or short-range outdoor activities, leaving the
challenges associated with long-distance travel largely unexplored. Mastering
extended geospatial-temporal trajectories is critical for next-generation
MLLMs, underpinning real-world tasks such as embodied-AI planning and
navigation. To bridge this gap, we present VIR-Bench, a novel benchmark
consisting of 200 travel videos that frames itinerary reconstruction as a
challenging task designed to evaluate and push forward MLLMs'
geospatial-temporal intelligence. Experimental results reveal that
state-of-the-art MLLMs, including proprietary ones, struggle to achieve high
scores, underscoring the difficulty of handling videos that span extended
spatial and temporal scales. Moreover, we conduct an in-depth case study in
which we develop a prototype travel-planning agent that leverages the insights
gained from VIR-Bench. The agent's markedly improved itinerary recommendations
verify that our evaluation protocol not only benchmarks models effectively but
also translates into concrete performance gains in user-facing applications.