OST-Bench: Het evalueren van de mogelijkheden van MLLM's in online ruimtelijk-temporele scènebegrip
OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding
July 10, 2025
Auteurs: JingLi Lin, Chenming Zhu, Runsen Xu, Xiaohan Mao, Xihui Liu, Tai Wang, Jiangmiao Pang
cs.AI
Samenvatting
Recente ontwikkelingen in multimodale grote taalmodellen (MLLMs) hebben opmerkelijke capaciteiten getoond in het integreren van visie en taal voor complexe redenering. Terwijl de meeste bestaande benchmarks modellen evalueren onder offline omstandigheden met een vaste set van vooraf opgenomen invoer, introduceren wij OST-Bench, een benchmark ontworpen om Online Spatio-Temporeel begrip te evalueren vanuit het perspectief van een agent die actief een scène verkent. Het Online aspect benadrukt de noodzaak om incrementeel verkregen observaties te verwerken en erover te redeneren, terwijl de Spatio-Temporele component vereist dat huidige visuele invoer wordt geïntegreerd met historisch geheugen om dynamische ruimtelijke redenering te ondersteunen. OST-Bench weerspiegelt beter de uitdagingen van waarneming in de echte wereld. Gebouwd op een efficiënte dataverzamelingspijplijn, bestaat OST-Bench uit 1.4k scènes en 10k vraag-antwoordparen verzameld uit ScanNet, Matterport3D en ARKitScenes. We evalueren verschillende toonaangevende MLLMs op OST-Bench en observeren dat ze tekortschieten bij taken die complexe spatio-temporele redenering vereisen. Onder de online omstandigheden neemt hun nauwkeurigheid af naarmate de verkenningstijd toeneemt en het geheugen groeit. Door verdere experimentele analyse identificeren we veelvoorkomende foutpatronen over modellen heen en vinden we dat zowel complexe aanwijzing-gebaseerde ruimtelijke redeneringseisen als langetermijngeheugenophaaleisen de modelprestaties aanzienlijk verminderen langs twee afzonderlijke assen, wat de kernuitdagingen benadrukt die moeten worden aangepakt om online belichaamde redenering te verbeteren. Om verder onderzoek en ontwikkeling in het veld te bevorderen, zijn onze codes, dataset en benchmark beschikbaar. Onze projectpagina is: https://rbler1234.github.io/OSTBench.github.io/
English
Recent advances in multimodal large language models (MLLMs) have shown
remarkable capabilities in integrating vision and language for complex
reasoning. While most existing benchmarks evaluate models under offline
settings with a fixed set of pre-recorded inputs, we introduce OST-Bench, a
benchmark designed to evaluate Online Spatio-Temporal understanding from the
perspective of an agent actively exploring a scene. The Online aspect
emphasizes the need to process and reason over incrementally acquired
observations, while the Spatio-Temporal component requires integrating current
visual inputs with historical memory to support dynamic spatial reasoning.
OST-Bench better reflects the challenges of real-world embodied perception.
Built on an efficient data collection pipeline, OST-Bench consists of 1.4k
scenes and 10k question-answer pairs collected from ScanNet, Matterport3D, and
ARKitScenes. We evaluate several leading MLLMs on OST-Bench and observe that
they fall short on tasks requiring complex spatio-temporal reasoning. Under the
online setting, their accuracy declines as the exploration horizon extends and
the memory grows. Through further experimental analysis, we identify common
error patterns across models and find that both complex clue-based spatial
reasoning demands and long-term memory retrieval requirements significantly
drop model performance along two separate axes, highlighting the core
challenges that must be addressed to improve online embodied reasoning. To
foster further research and development in the field, our codes, dataset, and
benchmark are available. Our project page is:
https://rbler1234.github.io/OSTBench.github.io/