Naar een multimodale levenslange begripsvorming: een dataset en een agent-gebaseerde basislijn

Samenvatting

Hoewel datasets voor videobegrip zijn opgeschaald naar opnames van urenlange duur, bestaan deze doorgaans uit dicht opeengepakte clips die verschillen van het natuurlijke, ongescripte dagelijkse leven. Om deze kloof te overbruggen, introduceren we MM-Lifelong, een dataset ontworpen voor Multimodale Levenslange Begripsvorming. De dataset omvat 181,1 uur aan beeldmateriaal, gestructureerd op Dag-, Week- en Maandschaal om verschillende temporele dichtheden vast te leggen. Uitgebreide evaluaties onthullen twee kritieke faalmodi in huidige paradigma's: end-to-end MLLM's lijden onder een Werkgeheugenflessenhals door contextverzadiging, terwijl representatieve agent-gebaseerde benchmarks te maken krijgen met Globale Localisatie-instorting bij het navigeren door schaarse, maandlange tijdlijnen. Om dit aan te pakken, stellen we de Recursieve Multimodale Agent (ReMA) voor, die dynamisch geheugenbeheer gebruikt om iteratief een recursieve geloofstoestand bij te werken, en daarmee aanzienlijk beter presteert dan bestaande methoden. Ten slotte stellen we datasplitsingen vast die zijn ontworpen om temporele en domeinvooroordelen te isoleren, waarmee een rigoureuze basis wordt gelegd voor toekomstig onderzoek naar supervised learning en out-of-distribution generalisatie.

English

While datasets for video understanding have scaled to hour-long durations, they typically consist of densely concatenated clips that differ from natural, unscripted daily life. To bridge this gap, we introduce MM-Lifelong, a dataset designed for Multimodal Lifelong Understanding. Comprising 181.1 hours of footage, it is structured across Day, Week, and Month scales to capture varying temporal densities. Extensive evaluations reveal two critical failure modes in current paradigms: end-to-end MLLMs suffer from a Working Memory Bottleneck due to context saturation, while representative agentic baselines experience Global Localization Collapse when navigating sparse, month-long timelines. To address this, we propose the Recursive Multimodal Agent (ReMA), which employs dynamic memory management to iteratively update a recursive belief state, significantly outperforming existing methods. Finally, we establish dataset splits designed to isolate temporal and domain biases, providing a rigorous foundation for future research in supervised learning and out-of-distribution generalization.

Naar een multimodale levenslange begripsvorming: een dataset en een agent-gebaseerde basislijn

Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

Samenvatting

Support