VIR-Bench: Avaliação da Compreensão Geoespacial e Temporal de MLLMs por meio da Reconstrução de Itinerários de Vídeos de Viagem
VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction
September 23, 2025
Autores: Hao Wang, Eiki Murata, Lingfang Zhang, Ayako Sato, So Fukuda, Ziqi Yin, Wentao Hu, Keisuke Nakao, Yusuke Nakamura, Sebastian Zwirner, Yi-Chia Chen, Hiroyuki Otomo, Hiroki Ouchi, Daisuke Kawahara
cs.AI
Resumo
Os recentes avanços em modelos de linguagem multimodal de grande escala (MLLMs) têm aprimorado significativamente as capacidades de compreensão de vídeos, abrindo novas possibilidades para aplicações práticas. No entanto, os benchmarks atuais de vídeo concentram-se principalmente em cenas internas ou atividades externas de curta distância, deixando os desafios associados a viagens de longa distância amplamente inexplorados. Dominar trajetórias geoespaciais-temporais estendidas é crucial para a próxima geração de MLLMs, fundamentando tarefas do mundo real, como planejamento e navegação em IA incorporada. Para preencher essa lacuna, apresentamos o VIR-Bench, um novo benchmark composto por 200 vídeos de viagens que enquadra a reconstrução de itinerários como uma tarefa desafiadora projetada para avaliar e avançar a inteligência geoespacial-temporal dos MLLMs. Os resultados experimentais revelam que os MLLMs de ponta, incluindo os proprietários, lutam para alcançar pontuações altas, destacando a dificuldade de lidar com vídeos que abrangem escalas espaciais e temporais estendidas. Além disso, realizamos um estudo de caso aprofundado no qual desenvolvemos um protótipo de agente de planejamento de viagens que aproveita os insights obtidos do VIR-Bench. As recomendações de itinerário significativamente melhoradas do agente verificam que nosso protocolo de avaliação não apenas avalia modelos de forma eficaz, mas também se traduz em ganhos concretos de desempenho em aplicações voltadas para o usuário.
English
Recent advances in multimodal large language models (MLLMs) have
significantly enhanced video understanding capabilities, opening new
possibilities for practical applications. Yet current video benchmarks focus
largely on indoor scenes or short-range outdoor activities, leaving the
challenges associated with long-distance travel largely unexplored. Mastering
extended geospatial-temporal trajectories is critical for next-generation
MLLMs, underpinning real-world tasks such as embodied-AI planning and
navigation. To bridge this gap, we present VIR-Bench, a novel benchmark
consisting of 200 travel videos that frames itinerary reconstruction as a
challenging task designed to evaluate and push forward MLLMs'
geospatial-temporal intelligence. Experimental results reveal that
state-of-the-art MLLMs, including proprietary ones, struggle to achieve high
scores, underscoring the difficulty of handling videos that span extended
spatial and temporal scales. Moreover, we conduct an in-depth case study in
which we develop a prototype travel-planning agent that leverages the insights
gained from VIR-Bench. The agent's markedly improved itinerary recommendations
verify that our evaluation protocol not only benchmarks models effectively but
also translates into concrete performance gains in user-facing applications.