VIR-Bench: Bewertung des geografischen und zeitlichen Verständnisses von MLLMs durch Rekonstruktion von Reisevideo-Itineraren
VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction
September 23, 2025
papers.authors: Hao Wang, Eiki Murata, Lingfang Zhang, Ayako Sato, So Fukuda, Ziqi Yin, Wentao Hu, Keisuke Nakao, Yusuke Nakamura, Sebastian Zwirner, Yi-Chia Chen, Hiroyuki Otomo, Hiroki Ouchi, Daisuke Kawahara
cs.AI
papers.abstract
Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben die Fähigkeiten zur Videoverständnis erheblich verbessert und neue Möglichkeiten für praktische Anwendungen eröffnet. Dennoch konzentrieren sich aktuelle Video-Benchmarks weitgehend auf Innenraumszenen oder kurzfristige Outdoor-Aktivitäten, wodurch die Herausforderungen im Zusammenhang mit Langstreckenreisen weitgehend unerforscht bleiben. Die Beherrschung von erweiterten georäumlich-zeitlichen Trajektorien ist entscheidend für die nächste Generation von MLLMs, da sie reale Aufgaben wie die Planung und Navigation von Embodied-AI unterstützt. Um diese Lücke zu schließen, präsentieren wir VIR-Bench, einen neuartigen Benchmark, der aus 200 Reisevideos besteht und die Rekonstruktion von Reiserouten als anspruchsvolle Aufgabe formuliert, um die georäumlich-zeitliche Intelligenz von MLLMs zu bewerten und voranzutreiben. Experimentelle Ergebnisse zeigen, dass state-of-the-art MLLMs, einschließlich proprietärer Modelle, Schwierigkeiten haben, hohe Punktzahlen zu erreichen, was die Schwierigkeit bei der Verarbeitung von Videos, die erweiterte räumliche und zeitliche Skalen umfassen, unterstreicht. Darüber hinaus führen wir eine detaillierte Fallstudie durch, in der wir einen Prototyp eines Reiseplanungsagenten entwickeln, der die Erkenntnisse aus VIR-Bench nutzt. Die deutlich verbesserten Reiseempfehlungen des Agenten bestätigen, dass unser Bewertungsprotokoll nicht nur Modelle effektiv benchmarket, sondern auch in konkrete Leistungssteigerungen bei nutzerorientierten Anwendungen übersetzt wird.
English
Recent advances in multimodal large language models (MLLMs) have
significantly enhanced video understanding capabilities, opening new
possibilities for practical applications. Yet current video benchmarks focus
largely on indoor scenes or short-range outdoor activities, leaving the
challenges associated with long-distance travel largely unexplored. Mastering
extended geospatial-temporal trajectories is critical for next-generation
MLLMs, underpinning real-world tasks such as embodied-AI planning and
navigation. To bridge this gap, we present VIR-Bench, a novel benchmark
consisting of 200 travel videos that frames itinerary reconstruction as a
challenging task designed to evaluate and push forward MLLMs'
geospatial-temporal intelligence. Experimental results reveal that
state-of-the-art MLLMs, including proprietary ones, struggle to achieve high
scores, underscoring the difficulty of handling videos that span extended
spatial and temporal scales. Moreover, we conduct an in-depth case study in
which we develop a prototype travel-planning agent that leverages the insights
gained from VIR-Bench. The agent's markedly improved itinerary recommendations
verify that our evaluation protocol not only benchmarks models effectively but
also translates into concrete performance gains in user-facing applications.