OST-Bench: Avaliando as Capacidades dos MLLMs na Compreensão de Cenas Espaço-temporais Online
OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding
July 10, 2025
Autores: JingLi Lin, Chenming Zhu, Runsen Xu, Xiaohan Mao, Xihui Liu, Tai Wang, Jiangmiao Pang
cs.AI
Resumo
Os recentes avanços em modelos de linguagem multimodal de grande escala (MLLMs) têm demonstrado capacidades notáveis na integração de visão e linguagem para raciocínios complexos. Enquanto a maioria dos benchmarks existentes avalia modelos em configurações offline com um conjunto fixo de entradas pré-gravadas, apresentamos o OST-Bench, um benchmark projetado para avaliar a compreensão Espaço-Temporal Online a partir da perspectiva de um agente que explora ativamente uma cena. O aspecto Online enfatiza a necessidade de processar e raciocinar sobre observações adquiridas incrementalmente, enquanto o componente Espaço-Temporal requer a integração de entradas visuais atuais com memória histórica para suportar o raciocínio espacial dinâmico. O OST-Bench reflete melhor os desafios da percepção incorporada no mundo real. Construído com base em um pipeline eficiente de coleta de dados, o OST-Bench consiste em 1,4 mil cenas e 10 mil pares de perguntas e respostas coletados do ScanNet, Matterport3D e ARKitScenes. Avaliamos vários MLLMs líderes no OST-Bench e observamos que eles têm desempenho insuficiente em tarefas que exigem raciocínio espaço-temporal complexo. Na configuração online, sua precisão diminui à medida que o horizonte de exploração se estende e a memória cresce. Por meio de análises experimentais adicionais, identificamos padrões comuns de erros entre os modelos e descobrimos que tanto as demandas de raciocínio espacial baseado em pistas complexas quanto os requisitos de recuperação de memória de longo prazo reduzem significativamente o desempenho dos modelos ao longo de dois eixos separados, destacando os principais desafios que devem ser abordados para melhorar o raciocínio incorporado online. Para promover mais pesquisas e desenvolvimentos na área, nossos códigos, conjunto de dados e benchmark estão disponíveis. Nossa página do projeto é: https://rbler1234.github.io/OSTBench.github.io/
English
Recent advances in multimodal large language models (MLLMs) have shown
remarkable capabilities in integrating vision and language for complex
reasoning. While most existing benchmarks evaluate models under offline
settings with a fixed set of pre-recorded inputs, we introduce OST-Bench, a
benchmark designed to evaluate Online Spatio-Temporal understanding from the
perspective of an agent actively exploring a scene. The Online aspect
emphasizes the need to process and reason over incrementally acquired
observations, while the Spatio-Temporal component requires integrating current
visual inputs with historical memory to support dynamic spatial reasoning.
OST-Bench better reflects the challenges of real-world embodied perception.
Built on an efficient data collection pipeline, OST-Bench consists of 1.4k
scenes and 10k question-answer pairs collected from ScanNet, Matterport3D, and
ARKitScenes. We evaluate several leading MLLMs on OST-Bench and observe that
they fall short on tasks requiring complex spatio-temporal reasoning. Under the
online setting, their accuracy declines as the exploration horizon extends and
the memory grows. Through further experimental analysis, we identify common
error patterns across models and find that both complex clue-based spatial
reasoning demands and long-term memory retrieval requirements significantly
drop model performance along two separate axes, highlighting the core
challenges that must be addressed to improve online embodied reasoning. To
foster further research and development in the field, our codes, dataset, and
benchmark are available. Our project page is:
https://rbler1234.github.io/OSTBench.github.io/