ChatPaper.aiChatPaper

Auf dem Weg zum multimodalen lebenslangen Verständnis: Ein Datensatz und eine agentenbasierte Baseline

Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

March 5, 2026
Autoren: Guo Chen, Lidong Lu, Yicheng Liu, Liangrui Dong, Lidong Zou, Jixin Lv, Zhenquan Li, Xinyi Mao, Baoqi Pei, Shihao Wang, Zhiqi Li, Karan Sapra, Fuxiao Liu, Yin-Dong Zheng, Yifei Huang, Limin Wang, Zhiding Yu, Andrew Tao, Guilin Liu, Tong Lu
cs.AI

Zusammenfassung

Während Datensätze für das Videoverständnis auf stundenlange Aufnahmen skaliert wurden, bestehen diese typischerweise aus dicht aneinandergereihten Clips, die sich von natürlichem, unscriptetem Alltagsgeschehen unterscheiden. Um diese Lücke zu schließen, stellen wir MM-Lifelong vor, einen Datensatz für multimodales lebenslanges Verständnis (Multimodal Lifelong Understanding). Mit 181,1 Stunden Filmmaterial ist er auf Tages-, Wochen- und Monatsebene strukturiert, um unterschiedliche zeitliche Dichten zu erfassen. Umfangreiche Auswertungen zeigen zwei kritische Fehlermodi aktueller Paradigmen: End-to-End-MLLMs leiden unter einem Arbeitsgedächtnis-Engpass (Working Memory Bottleneck) aufgrund von Kontextsättigung, während repräsentative agentenbasierte Baseline-Modelle einen Global-Localization-Collapse erleiden, wenn sie spärliche, monatelange Zeitleisten navigieren. Als Lösung schlagen wir den Rekursiven Multimodalen Agenten (ReMA) vor, der dynamisches Speichermanagement einsetzt, um einen rekursiven Überzeugungszustand (Belief State) iterativ zu aktualisieren, und existierende Methoden signifikant übertrifft. Abschließend etablieren wir Datensatzaufteilungen, die darauf ausgelegt sind, temporale Verzerrungen und Domänenverzerrungen zu isolieren, und schaffen so eine rigorose Grundlage für zukünftige Forschung im supervidierten Lernen und in der Out-of-Distribution-Generalisation.
English
While datasets for video understanding have scaled to hour-long durations, they typically consist of densely concatenated clips that differ from natural, unscripted daily life. To bridge this gap, we introduce MM-Lifelong, a dataset designed for Multimodal Lifelong Understanding. Comprising 181.1 hours of footage, it is structured across Day, Week, and Month scales to capture varying temporal densities. Extensive evaluations reveal two critical failure modes in current paradigms: end-to-end MLLMs suffer from a Working Memory Bottleneck due to context saturation, while representative agentic baselines experience Global Localization Collapse when navigating sparse, month-long timelines. To address this, we propose the Recursive Multimodal Agent (ReMA), which employs dynamic memory management to iteratively update a recursive belief state, significantly outperforming existing methods. Finally, we establish dataset splits designed to isolate temporal and domain biases, providing a rigorous foundation for future research in supervised learning and out-of-distribution generalization.
PDF42March 9, 2026