OST-Bench: Bewertung der Fähigkeiten von MLLMs im Verständnis von Online-Spatio-temporalen Szenen
OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding
July 10, 2025
papers.authors: JingLi Lin, Chenming Zhu, Runsen Xu, Xiaohan Mao, Xihui Liu, Tai Wang, Jiangmiao Pang
cs.AI
papers.abstract
Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben bemerkenswerte Fähigkeiten bei der Integration von Vision und Sprache für komplexes Denken gezeigt. Während die meisten bestehenden Benchmarks Modelle unter Offline-Bedingungen mit einem festen Satz vorgezeichneter Eingaben bewerten, stellen wir OST-Bench vor, einen Benchmark, der darauf abzielt, das Online-Spatio-Temporale Verständnis aus der Perspektive eines aktiv eine Szene erkundenden Agenten zu bewerten. Der Online-Aspekt betont die Notwendigkeit, schrittweise erworbene Beobachtungen zu verarbeiten und darüber zu schlussfolgern, während die Spatio-Temporale Komponente die Integration aktueller visueller Eingaben mit historischem Gedächtnis erfordert, um dynamisches räumliches Denken zu unterstützen. OST-Bench spiegelt die Herausforderungen der realen verkörperten Wahrnehmung besser wider. Auf einer effizienten Datenerfassungspipeline aufbauend, besteht OST-Bench aus 1.4k Szenen und 10k Frage-Antwort-Paaren, die aus ScanNet, Matterport3D und ARKitScenes gesammelt wurden. Wir bewerten mehrere führende MLLMs auf OST-Bench und stellen fest, dass sie bei Aufgaben, die komplexes spatio-temporales Denken erfordern, nicht mithalten können. Unter der Online-Einstellung nimmt ihre Genauigkeit ab, wenn der Erkundungshorizont sich ausdehnt und das Gedächtnis wächst. Durch weitere experimentelle Analysen identifizieren wir gemeinsame Fehlermuster über Modelle hinweg und stellen fest, dass sowohl komplexe, auf Hinweisen basierende räumliche Denkanforderungen als auch Anforderungen an das Langzeitgedächtnis die Modellleistung entlang zweier separater Achsen signifikant beeinträchtigen, was die Kernherausforderungen hervorhebt, die angegangen werden müssen, um das Online-verkörperte Denken zu verbessern. Um weitere Forschung und Entwicklung in diesem Bereich zu fördern, sind unsere Codes, Datensätze und Benchmarks verfügbar. Unsere Projektseite ist: https://rbler1234.github.io/OSTBench.github.io/
English
Recent advances in multimodal large language models (MLLMs) have shown
remarkable capabilities in integrating vision and language for complex
reasoning. While most existing benchmarks evaluate models under offline
settings with a fixed set of pre-recorded inputs, we introduce OST-Bench, a
benchmark designed to evaluate Online Spatio-Temporal understanding from the
perspective of an agent actively exploring a scene. The Online aspect
emphasizes the need to process and reason over incrementally acquired
observations, while the Spatio-Temporal component requires integrating current
visual inputs with historical memory to support dynamic spatial reasoning.
OST-Bench better reflects the challenges of real-world embodied perception.
Built on an efficient data collection pipeline, OST-Bench consists of 1.4k
scenes and 10k question-answer pairs collected from ScanNet, Matterport3D, and
ARKitScenes. We evaluate several leading MLLMs on OST-Bench and observe that
they fall short on tasks requiring complex spatio-temporal reasoning. Under the
online setting, their accuracy declines as the exploration horizon extends and
the memory grows. Through further experimental analysis, we identify common
error patterns across models and find that both complex clue-based spatial
reasoning demands and long-term memory retrieval requirements significantly
drop model performance along two separate axes, highlighting the core
challenges that must be addressed to improve online embodied reasoning. To
foster further research and development in the field, our codes, dataset, and
benchmark are available. Our project page is:
https://rbler1234.github.io/OSTBench.github.io/