OST-Bench: Оценка возможностей MLLM в понимании онлайн пространственно-временных сцен
OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding
July 10, 2025
Авторы: JingLi Lin, Chenming Zhu, Runsen Xu, Xiaohan Mao, Xihui Liu, Tai Wang, Jiangmiao Pang
cs.AI
Аннотация
Последние достижения в области мультимодальных больших языковых моделей (MLLMs) продемонстрировали впечатляющие способности в интеграции зрения и языка для сложных рассуждений. В то время как большинство существующих бенчмарков оценивают модели в оффлайн-режиме с фиксированным набором предварительно записанных входных данных, мы представляем OST-Bench — бенчмарк, разработанный для оценки онлайн пространственно-временного понимания с точки зрения агента, активно исследующего сцену. Онлайн-аспект подчеркивает необходимость обработки и рассуждений на основе постепенно получаемых наблюдений, а пространственно-временной компонент требует интеграции текущих визуальных данных с исторической памятью для поддержки динамического пространственного рассуждения. OST-Bench лучше отражает вызовы реального воплощенного восприятия. Построенный на эффективном конвейере сбора данных, OST-Bench включает 1,4 тыс. сцен и 10 тыс. пар вопросов и ответов, собранных из ScanNet, Matterport3D и ARKitScenes. Мы оценили несколько ведущих MLLMs на OST-Bench и обнаружили, что они не справляются с задачами, требующими сложного пространственно-временного рассуждения. В онлайн-режиме их точность снижается по мере увеличения горизонта исследования и роста памяти. Дополнительный экспериментальный анализ выявил общие модели ошибок среди моделей и показал, что как сложные требования к пространственному рассуждению на основе подсказок, так и требования к долгосрочному извлечению памяти значительно снижают производительность моделей по двум отдельным направлениям, подчеркивая ключевые вызовы, которые необходимо решить для улучшения онлайн воплощенного рассуждения. Для стимулирования дальнейших исследований и разработок в этой области наши коды, набор данных и бенчмарк доступны. Страница проекта: https://rbler1234.github.io/OSTBench.github.io/.
English
Recent advances in multimodal large language models (MLLMs) have shown
remarkable capabilities in integrating vision and language for complex
reasoning. While most existing benchmarks evaluate models under offline
settings with a fixed set of pre-recorded inputs, we introduce OST-Bench, a
benchmark designed to evaluate Online Spatio-Temporal understanding from the
perspective of an agent actively exploring a scene. The Online aspect
emphasizes the need to process and reason over incrementally acquired
observations, while the Spatio-Temporal component requires integrating current
visual inputs with historical memory to support dynamic spatial reasoning.
OST-Bench better reflects the challenges of real-world embodied perception.
Built on an efficient data collection pipeline, OST-Bench consists of 1.4k
scenes and 10k question-answer pairs collected from ScanNet, Matterport3D, and
ARKitScenes. We evaluate several leading MLLMs on OST-Bench and observe that
they fall short on tasks requiring complex spatio-temporal reasoning. Under the
online setting, their accuracy declines as the exploration horizon extends and
the memory grows. Through further experimental analysis, we identify common
error patterns across models and find that both complex clue-based spatial
reasoning demands and long-term memory retrieval requirements significantly
drop model performance along two separate axes, highlighting the core
challenges that must be addressed to improve online embodied reasoning. To
foster further research and development in the field, our codes, dataset, and
benchmark are available. Our project page is:
https://rbler1234.github.io/OSTBench.github.io/