ChatPaper.aiChatPaper

VIR-Bench: Оценка пространственного и временного понимания MLLM через восстановление маршрута по видеозаписям путешествий

VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction

September 23, 2025
Авторы: Hao Wang, Eiki Murata, Lingfang Zhang, Ayako Sato, So Fukuda, Ziqi Yin, Wentao Hu, Keisuke Nakao, Yusuke Nakamura, Sebastian Zwirner, Yi-Chia Chen, Hiroyuki Otomo, Hiroki Ouchi, Daisuke Kawahara
cs.AI

Аннотация

Последние достижения в области мультимодальных больших языковых моделей (MLLMs) значительно улучшили возможности понимания видео, открывая новые перспективы для практического применения. Однако современные видеобенчмарки в основном сосредоточены на сценах в помещении или краткосрочных активностях на открытом воздухе, оставляя проблемы, связанные с длительными путешествиями, практически неисследованными. Освоение протяженных геопространственно-временных траекторий имеет критическое значение для MLLMs следующего поколения, лежа в основе таких реальных задач, как планирование и навигация для воплощенных ИИ-агентов. Чтобы заполнить этот пробел, мы представляем VIR-Bench — новый бенчмарк, состоящий из 200 видеозаписей путешествий, который формулирует реконструкцию маршрута как сложную задачу, предназначенную для оценки и продвижения геопространственно-временного интеллекта MLLMs. Результаты экспериментов показывают, что современные MLLMs, включая проприетарные модели, с трудом достигают высоких оценок, что подчеркивает сложность обработки видео, охватывающих значительные пространственные и временные масштабы. Кроме того, мы проводим углубленное исследование, в котором разрабатываем прототип агента для планирования путешествий, использующего полученные из VIR-Bench данные. Значительно улучшенные рекомендации маршрутов, предоставляемые агентом, подтверждают, что наш протокол оценки не только эффективно тестирует модели, но и приводит к конкретным улучшениям в пользовательских приложениях.
English
Recent advances in multimodal large language models (MLLMs) have significantly enhanced video understanding capabilities, opening new possibilities for practical applications. Yet current video benchmarks focus largely on indoor scenes or short-range outdoor activities, leaving the challenges associated with long-distance travel largely unexplored. Mastering extended geospatial-temporal trajectories is critical for next-generation MLLMs, underpinning real-world tasks such as embodied-AI planning and navigation. To bridge this gap, we present VIR-Bench, a novel benchmark consisting of 200 travel videos that frames itinerary reconstruction as a challenging task designed to evaluate and push forward MLLMs' geospatial-temporal intelligence. Experimental results reveal that state-of-the-art MLLMs, including proprietary ones, struggle to achieve high scores, underscoring the difficulty of handling videos that span extended spatial and temporal scales. Moreover, we conduct an in-depth case study in which we develop a prototype travel-planning agent that leverages the insights gained from VIR-Bench. The agent's markedly improved itinerary recommendations verify that our evaluation protocol not only benchmarks models effectively but also translates into concrete performance gains in user-facing applications.
PDF22September 24, 2025