VIR-Bench: Valutazione della Comprensione Geospaziale e Temporale dei MLLM attraverso la Ricostruzione di Itinerari da Video di Viaggio
VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction
September 23, 2025
Autori: Hao Wang, Eiki Murata, Lingfang Zhang, Ayako Sato, So Fukuda, Ziqi Yin, Wentao Hu, Keisuke Nakao, Yusuke Nakamura, Sebastian Zwirner, Yi-Chia Chen, Hiroyuki Otomo, Hiroki Ouchi, Daisuke Kawahara
cs.AI
Abstract
I recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLM) hanno significativamente migliorato le capacità di comprensione video, aprendo nuove possibilità per applicazioni pratiche. Tuttavia, gli attuali benchmark video si concentrano principalmente su scene indoor o attività outdoor a breve distanza, lasciando in gran parte inesplorate le sfide associate a viaggi a lunga distanza. Padroneggiare traiettorie geospaziali-temporali estese è fondamentale per la prossima generazione di MLLM, sostenendo compiti del mondo reale come la pianificazione e la navigazione di sistemi di intelligenza artificiale incarnata. Per colmare questa lacuna, presentiamo VIR-Bench, un nuovo benchmark composto da 200 video di viaggio che inquadra la ricostruzione degli itinerari come un compito impegnativo progettato per valutare e far progredire l'intelligenza geospaziale-temporale degli MLLM. I risultati sperimentali rivelano che gli MLLM all'avanguardia, inclusi quelli proprietari, faticano a ottenere punteggi elevati, sottolineando la difficoltà di gestire video che coprono scale spaziali e temporali estese. Inoltre, conduciamo uno studio di caso approfondito in cui sviluppiamo un prototipo di agente di pianificazione di viaggi che sfrutta le intuizioni ottenute da VIR-Bench. Le raccomandazioni di itinerario significativamente migliorate dell'agente verificano che il nostro protocollo di valutazione non solo valuta efficacemente i modelli, ma si traduce anche in concreti miglioramenti delle prestazioni nelle applicazioni rivolte agli utenti.
English
Recent advances in multimodal large language models (MLLMs) have
significantly enhanced video understanding capabilities, opening new
possibilities for practical applications. Yet current video benchmarks focus
largely on indoor scenes or short-range outdoor activities, leaving the
challenges associated with long-distance travel largely unexplored. Mastering
extended geospatial-temporal trajectories is critical for next-generation
MLLMs, underpinning real-world tasks such as embodied-AI planning and
navigation. To bridge this gap, we present VIR-Bench, a novel benchmark
consisting of 200 travel videos that frames itinerary reconstruction as a
challenging task designed to evaluate and push forward MLLMs'
geospatial-temporal intelligence. Experimental results reveal that
state-of-the-art MLLMs, including proprietary ones, struggle to achieve high
scores, underscoring the difficulty of handling videos that span extended
spatial and temporal scales. Moreover, we conduct an in-depth case study in
which we develop a prototype travel-planning agent that leverages the insights
gained from VIR-Bench. The agent's markedly improved itinerary recommendations
verify that our evaluation protocol not only benchmarks models effectively but
also translates into concrete performance gains in user-facing applications.