VIR-Bench: Evaluación de la Comprensión Geoespacial y Temporal de los MLLMs mediante la Reconstrucción de Itinerarios de Videos de Viaje
VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction
September 23, 2025
Autores: Hao Wang, Eiki Murata, Lingfang Zhang, Ayako Sato, So Fukuda, Ziqi Yin, Wentao Hu, Keisuke Nakao, Yusuke Nakamura, Sebastian Zwirner, Yi-Chia Chen, Hiroyuki Otomo, Hiroki Ouchi, Daisuke Kawahara
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han mejorado significativamente las capacidades de comprensión de videos, abriendo nuevas posibilidades para aplicaciones prácticas. Sin embargo, los benchmarks actuales de video se centran principalmente en escenas interiores o actividades al aire libre de corta duración, dejando en gran medida sin explorar los desafíos asociados con los viajes de larga distancia. Dominar trayectorias geoespaciales-temporales extendidas es crucial para la próxima generación de MLLMs, sustentando tareas del mundo real como la planificación y navegación en sistemas de IA encarnada. Para cerrar esta brecha, presentamos VIR-Bench, un nuevo benchmark compuesto por 200 videos de viajes que enmarca la reconstrucción de itinerarios como una tarea desafiante diseñada para evaluar y avanzar la inteligencia geoespacial-temporal de los MLLMs. Los resultados experimentales revelan que los MLLMs de vanguardia, incluidos los propietarios, tienen dificultades para alcanzar puntuaciones altas, subrayando la complejidad de manejar videos que abarcan escalas espaciales y temporales extendidas. Además, realizamos un estudio de caso en profundidad en el que desarrollamos un prototipo de agente de planificación de viajes que aprovecha los conocimientos obtenidos de VIR-Bench. Las recomendaciones de itinerario notablemente mejoradas del agente verifican que nuestro protocolo de evaluación no solo evalúa los modelos de manera efectiva, sino que también se traduce en mejoras concretas de rendimiento en aplicaciones orientadas al usuario.
English
Recent advances in multimodal large language models (MLLMs) have
significantly enhanced video understanding capabilities, opening new
possibilities for practical applications. Yet current video benchmarks focus
largely on indoor scenes or short-range outdoor activities, leaving the
challenges associated with long-distance travel largely unexplored. Mastering
extended geospatial-temporal trajectories is critical for next-generation
MLLMs, underpinning real-world tasks such as embodied-AI planning and
navigation. To bridge this gap, we present VIR-Bench, a novel benchmark
consisting of 200 travel videos that frames itinerary reconstruction as a
challenging task designed to evaluate and push forward MLLMs'
geospatial-temporal intelligence. Experimental results reveal that
state-of-the-art MLLMs, including proprietary ones, struggle to achieve high
scores, underscoring the difficulty of handling videos that span extended
spatial and temporal scales. Moreover, we conduct an in-depth case study in
which we develop a prototype travel-planning agent that leverages the insights
gained from VIR-Bench. The agent's markedly improved itinerary recommendations
verify that our evaluation protocol not only benchmarks models effectively but
also translates into concrete performance gains in user-facing applications.