ChatPaper.aiChatPaper

VIR-Bench: Evaluatie van Geospatial en Temporeel Begrip van MLLM's via Reconstructie van Reisvideo Itineraires

VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction

September 23, 2025
Auteurs: Hao Wang, Eiki Murata, Lingfang Zhang, Ayako Sato, So Fukuda, Ziqi Yin, Wentao Hu, Keisuke Nakao, Yusuke Nakamura, Sebastian Zwirner, Yi-Chia Chen, Hiroyuki Otomo, Hiroki Ouchi, Daisuke Kawahara
cs.AI

Samenvatting

Recente ontwikkelingen in multimodale grote taalmodellen (MLLMs) hebben de mogelijkheden voor videobegrip aanzienlijk verbeterd, wat nieuwe mogelijkheden opent voor praktische toepassingen. Toch richten huidige videobenchmarks zich voornamelijk op binnenomgevingen of kortdurende buitenactiviteiten, waardoor de uitdagingen die gepaard gaan met langeafstandsreizen grotendeels onontgonnen blijven. Het beheersen van uitgebreide geospatiale-temporele trajecten is cruciaal voor de volgende generatie MLLMs, wat de basis vormt voor real-world taken zoals embodied-AI planning en navigatie. Om deze kloof te overbruggen, presenteren we VIR-Bench, een nieuwe benchmark bestaande uit 200 reisvideo's die het reconstrueren van reisroutes als een uitdagende taak vormgeeft, ontworpen om de geospatiale-temporele intelligentie van MLLMs te evalueren en verder te ontwikkelen. Experimentele resultaten laten zien dat state-of-the-art MLLMs, inclusief propriëtaire modellen, moeite hebben om hoge scores te behalen, wat de moeilijkheid onderstreept van het verwerken van video's die zich uitstrekken over uitgebreide ruimtelijke en temporele schalen. Bovendien voeren we een diepgaande casestudy uit waarin we een prototype van een reisplanningsagent ontwikkelen die gebruikmaakt van de inzichten verkregen uit VIR-Bench. De aanzienlijk verbeterde reisadviezen van de agent bevestigen dat ons evaluatieprotocol niet alleen effectief modellen benchmarkt, maar ook vertaalt naar concrete prestatieverbeteringen in gebruikersgerichte toepassingen.
English
Recent advances in multimodal large language models (MLLMs) have significantly enhanced video understanding capabilities, opening new possibilities for practical applications. Yet current video benchmarks focus largely on indoor scenes or short-range outdoor activities, leaving the challenges associated with long-distance travel largely unexplored. Mastering extended geospatial-temporal trajectories is critical for next-generation MLLMs, underpinning real-world tasks such as embodied-AI planning and navigation. To bridge this gap, we present VIR-Bench, a novel benchmark consisting of 200 travel videos that frames itinerary reconstruction as a challenging task designed to evaluate and push forward MLLMs' geospatial-temporal intelligence. Experimental results reveal that state-of-the-art MLLMs, including proprietary ones, struggle to achieve high scores, underscoring the difficulty of handling videos that span extended spatial and temporal scales. Moreover, we conduct an in-depth case study in which we develop a prototype travel-planning agent that leverages the insights gained from VIR-Bench. The agent's markedly improved itinerary recommendations verify that our evaluation protocol not only benchmarks models effectively but also translates into concrete performance gains in user-facing applications.
PDF22September 24, 2025