OST-Bench: Valutazione delle Capacità dei MLLM nella Comprensione di Scene Spazio-temporali Online
OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding
July 10, 2025
Autori: JingLi Lin, Chenming Zhu, Runsen Xu, Xiaohan Mao, Xihui Liu, Tai Wang, Jiangmiao Pang
cs.AI
Abstract
I recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLMs) hanno dimostrato capacità straordinarie nell'integrare visione e linguaggio per ragionamenti complessi. Mentre la maggior parte dei benchmark esistenti valuta i modelli in contesti offline con un insieme fisso di input preregistrati, introduciamo OST-Bench, un benchmark progettato per valutare la comprensione Spazio-Temporale Online dal punto di vista di un agente che esplora attivamente una scena. L'aspetto Online enfatizza la necessità di elaborare e ragionare su osservazioni acquisite in modo incrementale, mentre il componente Spazio-Temporale richiede l'integrazione degli input visivi attuali con la memoria storica per supportare il ragionamento spaziale dinamico. OST-Bench riflette meglio le sfide della percezione incarnata nel mondo reale. Costruito su una pipeline efficiente di raccolta dati, OST-Bench è composto da 1.4k scene e 10k coppie domanda-risposta raccolte da ScanNet, Matterport3D e ARKitScenes. Valutiamo diversi MLLMs leader su OST-Bench e osserviamo che non riescono a svolgere compiti che richiedono un ragionamento spazio-temporale complesso. In contesti online, la loro accuratezza diminuisce man mano che l'orizzonte di esplorazione si estende e la memoria cresce. Attraverso ulteriori analisi sperimentali, identifichiamo modelli comuni di errore tra i modelli e scopriamo che sia le richieste di ragionamento spaziale basato su indizi complessi che i requisiti di recupero della memoria a lungo termine riducono significativamente le prestazioni lungo due assi separati, evidenziando le sfide fondamentali che devono essere affrontate per migliorare il ragionamento incarnato online. Per promuovere ulteriori ricerche e sviluppi nel campo, i nostri codici, dataset e benchmark sono disponibili. La nostra pagina del progetto è: https://rbler1234.github.io/OSTBench.github.io/
English
Recent advances in multimodal large language models (MLLMs) have shown
remarkable capabilities in integrating vision and language for complex
reasoning. While most existing benchmarks evaluate models under offline
settings with a fixed set of pre-recorded inputs, we introduce OST-Bench, a
benchmark designed to evaluate Online Spatio-Temporal understanding from the
perspective of an agent actively exploring a scene. The Online aspect
emphasizes the need to process and reason over incrementally acquired
observations, while the Spatio-Temporal component requires integrating current
visual inputs with historical memory to support dynamic spatial reasoning.
OST-Bench better reflects the challenges of real-world embodied perception.
Built on an efficient data collection pipeline, OST-Bench consists of 1.4k
scenes and 10k question-answer pairs collected from ScanNet, Matterport3D, and
ARKitScenes. We evaluate several leading MLLMs on OST-Bench and observe that
they fall short on tasks requiring complex spatio-temporal reasoning. Under the
online setting, their accuracy declines as the exploration horizon extends and
the memory grows. Through further experimental analysis, we identify common
error patterns across models and find that both complex clue-based spatial
reasoning demands and long-term memory retrieval requirements significantly
drop model performance along two separate axes, highlighting the core
challenges that must be addressed to improve online embodied reasoning. To
foster further research and development in the field, our codes, dataset, and
benchmark are available. Our project page is:
https://rbler1234.github.io/OSTBench.github.io/