Auf dem Weg zum multimodalen lebenslangen Verständnis: Ein Datensatz und eine agentenbasierte Baseline

Zusammenfassung

Während Datensätze für das Videoverständnis auf stundenlange Aufnahmen skaliert wurden, bestehen diese typischerweise aus dicht aneinandergereihten Clips, die sich von natürlichem, unscriptetem Alltagsgeschehen unterscheiden. Um diese Lücke zu schließen, stellen wir MM-Lifelong vor, einen Datensatz für multimodales lebenslanges Verständnis (Multimodal Lifelong Understanding). Mit 181,1 Stunden Filmmaterial ist er auf Tages-, Wochen- und Monatsebene strukturiert, um unterschiedliche zeitliche Dichten zu erfassen. Umfangreiche Auswertungen zeigen zwei kritische Fehlermodi aktueller Paradigmen: End-to-End-MLLMs leiden unter einem Arbeitsgedächtnis-Engpass (Working Memory Bottleneck) aufgrund von Kontextsättigung, während repräsentative agentenbasierte Baseline-Modelle einen Global-Localization-Collapse erleiden, wenn sie spärliche, monatelange Zeitleisten navigieren. Als Lösung schlagen wir den Rekursiven Multimodalen Agenten (ReMA) vor, der dynamisches Speichermanagement einsetzt, um einen rekursiven Überzeugungszustand (Belief State) iterativ zu aktualisieren, und existierende Methoden signifikant übertrifft. Abschließend etablieren wir Datensatzaufteilungen, die darauf ausgelegt sind, temporale Verzerrungen und Domänenverzerrungen zu isolieren, und schaffen so eine rigorose Grundlage für zukünftige Forschung im supervidierten Lernen und in der Out-of-Distribution-Generalisation.

English

While datasets for video understanding have scaled to hour-long durations, they typically consist of densely concatenated clips that differ from natural, unscripted daily life. To bridge this gap, we introduce MM-Lifelong, a dataset designed for Multimodal Lifelong Understanding. Comprising 181.1 hours of footage, it is structured across Day, Week, and Month scales to capture varying temporal densities. Extensive evaluations reveal two critical failure modes in current paradigms: end-to-end MLLMs suffer from a Working Memory Bottleneck due to context saturation, while representative agentic baselines experience Global Localization Collapse when navigating sparse, month-long timelines. To address this, we propose the Recursive Multimodal Agent (ReMA), which employs dynamic memory management to iteratively update a recursive belief state, significantly outperforming existing methods. Finally, we establish dataset splits designed to isolate temporal and domain biases, providing a rigorous foundation for future research in supervised learning and out-of-distribution generalization.

Auf dem Weg zum multimodalen lebenslangen Verständnis: Ein Datensatz und eine agentenbasierte Baseline

Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

Zusammenfassung

Support