OST-Bench: Evaluación de las Capacidades de los MLLMs en la Comprensión de Escenas Espacio-Temporales en Línea
OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding
July 10, 2025
Autores: JingLi Lin, Chenming Zhu, Runsen Xu, Xiaohan Mao, Xihui Liu, Tai Wang, Jiangmiao Pang
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han demostrado capacidades notables para integrar visión y lenguaje en tareas de razonamiento complejo. Mientras que la mayoría de los benchmarks existentes evalúan los modelos en entornos fuera de línea con un conjunto fijo de entradas previamente registradas, presentamos OST-Bench, un benchmark diseñado para evaluar la comprensión Espacio-Temporal en línea desde la perspectiva de un agente que explora activamente una escena. El aspecto en línea enfatiza la necesidad de procesar y razonar sobre observaciones adquiridas de manera incremental, mientras que el componente Espacio-Temporal requiere integrar las entradas visuales actuales con la memoria histórica para apoyar el razonamiento espacial dinámico. OST-Bench refleja mejor los desafíos de la percepción corporeizada en el mundo real. Construido sobre una canalización eficiente de recopilación de datos, OST-Bench consta de 1.4k escenas y 10k pares de preguntas-respuestas recopilados de ScanNet, Matterport3D y ARKitScenes. Evaluamos varios MLLMs líderes en OST-Bench y observamos que no alcanzan el rendimiento esperado en tareas que requieren razonamiento espacio-temporal complejo. En el entorno en línea, su precisión disminuye a medida que se extiende el horizonte de exploración y crece la memoria. A través de un análisis experimental adicional, identificamos patrones comunes de errores en los modelos y encontramos que tanto las demandas de razonamiento espacial basado en pistas complejas como los requisitos de recuperación de memoria a largo plazo reducen significativamente el rendimiento de los modelos en dos ejes separados, destacando los desafíos centrales que deben abordarse para mejorar el razonamiento corporeizado en línea. Para fomentar la investigación y el desarrollo en este campo, nuestros códigos, conjunto de datos y benchmark están disponibles. Nuestra página del proyecto es: https://rbler1234.github.io/OSTBench.github.io/
English
Recent advances in multimodal large language models (MLLMs) have shown
remarkable capabilities in integrating vision and language for complex
reasoning. While most existing benchmarks evaluate models under offline
settings with a fixed set of pre-recorded inputs, we introduce OST-Bench, a
benchmark designed to evaluate Online Spatio-Temporal understanding from the
perspective of an agent actively exploring a scene. The Online aspect
emphasizes the need to process and reason over incrementally acquired
observations, while the Spatio-Temporal component requires integrating current
visual inputs with historical memory to support dynamic spatial reasoning.
OST-Bench better reflects the challenges of real-world embodied perception.
Built on an efficient data collection pipeline, OST-Bench consists of 1.4k
scenes and 10k question-answer pairs collected from ScanNet, Matterport3D, and
ARKitScenes. We evaluate several leading MLLMs on OST-Bench and observe that
they fall short on tasks requiring complex spatio-temporal reasoning. Under the
online setting, their accuracy declines as the exploration horizon extends and
the memory grows. Through further experimental analysis, we identify common
error patterns across models and find that both complex clue-based spatial
reasoning demands and long-term memory retrieval requirements significantly
drop model performance along two separate axes, highlighting the core
challenges that must be addressed to improve online embodied reasoning. To
foster further research and development in the field, our codes, dataset, and
benchmark are available. Our project page is:
https://rbler1234.github.io/OSTBench.github.io/