OST-Bench : Évaluation des capacités des MLLM dans la compréhension spatio-temporelle en ligne des scènes
OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding
July 10, 2025
papers.authors: JingLi Lin, Chenming Zhu, Runsen Xu, Xiaohan Mao, Xihui Liu, Tai Wang, Jiangmiao Pang
cs.AI
papers.abstract
Les récents progrès dans les modèles de langage multimodal de grande envergure (MLLMs) ont démontré des capacités remarquables dans l'intégration de la vision et du langage pour des raisonnements complexes. Alors que la plupart des benchmarks existants évaluent les modèles dans des contextes hors ligne avec un ensemble fixe d'entrées préenregistrées, nous introduisons OST-Bench, un benchmark conçu pour évaluer la compréhension spatio-temporelle en ligne du point de vue d'un agent explorant activement une scène. L'aspect en ligne met l'accent sur la nécessité de traiter et de raisonner sur des observations acquises de manière incrémentale, tandis que la composante spatio-temporelle nécessite l'intégration des entrées visuelles actuelles avec la mémoire historique pour soutenir un raisonnement spatial dynamique. OST-Bench reflète mieux les défis de la perception incarnée dans le monde réel. Construit sur un pipeline efficace de collecte de données, OST-Bench se compose de 1,4k scènes et de 10k paires question-réponse collectées à partir de ScanNet, Matterport3D et ARKitScenes. Nous évaluons plusieurs MLLMs de pointe sur OST-Bench et observons qu'ils sont en difficulté pour les tâches nécessitant un raisonnement spatio-temporel complexe. Dans le cadre en ligne, leur précision diminue à mesure que l'horizon d'exploration s'étend et que la mémoire s'accroît. À travers une analyse expérimentale approfondie, nous identifions des schémas d'erreurs communs entre les modèles et constatons que les exigences complexes de raisonnement spatial basé sur des indices ainsi que les besoins de récupération de mémoire à long terme réduisent significativement les performances des modèles selon deux axes distincts, mettant en lumière les défis fondamentaux qui doivent être relevés pour améliorer le raisonnement incarné en ligne. Pour favoriser la recherche et le développement dans ce domaine, nos codes, jeux de données et benchmark sont disponibles. Notre page de projet est : https://rbler1234.github.io/OSTBench.github.io/
English
Recent advances in multimodal large language models (MLLMs) have shown
remarkable capabilities in integrating vision and language for complex
reasoning. While most existing benchmarks evaluate models under offline
settings with a fixed set of pre-recorded inputs, we introduce OST-Bench, a
benchmark designed to evaluate Online Spatio-Temporal understanding from the
perspective of an agent actively exploring a scene. The Online aspect
emphasizes the need to process and reason over incrementally acquired
observations, while the Spatio-Temporal component requires integrating current
visual inputs with historical memory to support dynamic spatial reasoning.
OST-Bench better reflects the challenges of real-world embodied perception.
Built on an efficient data collection pipeline, OST-Bench consists of 1.4k
scenes and 10k question-answer pairs collected from ScanNet, Matterport3D, and
ARKitScenes. We evaluate several leading MLLMs on OST-Bench and observe that
they fall short on tasks requiring complex spatio-temporal reasoning. Under the
online setting, their accuracy declines as the exploration horizon extends and
the memory grows. Through further experimental analysis, we identify common
error patterns across models and find that both complex clue-based spatial
reasoning demands and long-term memory retrieval requirements significantly
drop model performance along two separate axes, highlighting the core
challenges that must be addressed to improve online embodied reasoning. To
foster further research and development in the field, our codes, dataset, and
benchmark are available. Our project page is:
https://rbler1234.github.io/OSTBench.github.io/