OST-Bench: Avaliando as Capacidades dos MLLMs na Compreensão de Cenas Espaço-temporais Online

Resumo

Os recentes avanços em modelos de linguagem multimodal de grande escala (MLLMs) têm demonstrado capacidades notáveis na integração de visão e linguagem para raciocínios complexos. Enquanto a maioria dos benchmarks existentes avalia modelos em configurações offline com um conjunto fixo de entradas pré-gravadas, apresentamos o OST-Bench, um benchmark projetado para avaliar a compreensão Espaço-Temporal Online a partir da perspectiva de um agente que explora ativamente uma cena. O aspecto Online enfatiza a necessidade de processar e raciocinar sobre observações adquiridas incrementalmente, enquanto o componente Espaço-Temporal requer a integração de entradas visuais atuais com memória histórica para suportar o raciocínio espacial dinâmico. O OST-Bench reflete melhor os desafios da percepção incorporada no mundo real. Construído com base em um pipeline eficiente de coleta de dados, o OST-Bench consiste em 1,4 mil cenas e 10 mil pares de perguntas e respostas coletados do ScanNet, Matterport3D e ARKitScenes. Avaliamos vários MLLMs líderes no OST-Bench e observamos que eles têm desempenho insuficiente em tarefas que exigem raciocínio espaço-temporal complexo. Na configuração online, sua precisão diminui à medida que o horizonte de exploração se estende e a memória cresce. Por meio de análises experimentais adicionais, identificamos padrões comuns de erros entre os modelos e descobrimos que tanto as demandas de raciocínio espacial baseado em pistas complexas quanto os requisitos de recuperação de memória de longo prazo reduzem significativamente o desempenho dos modelos ao longo de dois eixos separados, destacando os principais desafios que devem ser abordados para melhorar o raciocínio incorporado online. Para promover mais pesquisas e desenvolvimentos na área, nossos códigos, conjunto de dados e benchmark estão disponíveis. Nossa página do projeto é: https://rbler1234.github.io/OSTBench.github.io/

English

Recent advances in multimodal large language models (MLLMs) have shown remarkable capabilities in integrating vision and language for complex reasoning. While most existing benchmarks evaluate models under offline settings with a fixed set of pre-recorded inputs, we introduce OST-Bench, a benchmark designed to evaluate Online Spatio-Temporal understanding from the perspective of an agent actively exploring a scene. The Online aspect emphasizes the need to process and reason over incrementally acquired observations, while the Spatio-Temporal component requires integrating current visual inputs with historical memory to support dynamic spatial reasoning. OST-Bench better reflects the challenges of real-world embodied perception. Built on an efficient data collection pipeline, OST-Bench consists of 1.4k scenes and 10k question-answer pairs collected from ScanNet, Matterport3D, and ARKitScenes. We evaluate several leading MLLMs on OST-Bench and observe that they fall short on tasks requiring complex spatio-temporal reasoning. Under the online setting, their accuracy declines as the exploration horizon extends and the memory grows. Through further experimental analysis, we identify common error patterns across models and find that both complex clue-based spatial reasoning demands and long-term memory retrieval requirements significantly drop model performance along two separate axes, highlighting the core challenges that must be addressed to improve online embodied reasoning. To foster further research and development in the field, our codes, dataset, and benchmark are available. Our project page is: https://rbler1234.github.io/OSTBench.github.io/

OST-Bench: Avaliando as Capacidades dos MLLMs na Compreensão de Cenas Espaço-temporais Online

OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding

Resumo

Support