ChatPaper.aiChatPaper

Naar een multimodale levenslange begripsvorming: een dataset en een agent-gebaseerde basislijn

Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

March 5, 2026
Auteurs: Guo Chen, Lidong Lu, Yicheng Liu, Liangrui Dong, Lidong Zou, Jixin Lv, Zhenquan Li, Xinyi Mao, Baoqi Pei, Shihao Wang, Zhiqi Li, Karan Sapra, Fuxiao Liu, Yin-Dong Zheng, Yifei Huang, Limin Wang, Zhiding Yu, Andrew Tao, Guilin Liu, Tong Lu
cs.AI

Samenvatting

Hoewel datasets voor videobegrip zijn opgeschaald naar opnames van urenlange duur, bestaan deze doorgaans uit dicht opeengepakte clips die verschillen van het natuurlijke, ongescripte dagelijkse leven. Om deze kloof te overbruggen, introduceren we MM-Lifelong, een dataset ontworpen voor Multimodale Levenslange Begripsvorming. De dataset omvat 181,1 uur aan beeldmateriaal, gestructureerd op Dag-, Week- en Maandschaal om verschillende temporele dichtheden vast te leggen. Uitgebreide evaluaties onthullen twee kritieke faalmodi in huidige paradigma's: end-to-end MLLM's lijden onder een Werkgeheugenflessenhals door contextverzadiging, terwijl representatieve agent-gebaseerde benchmarks te maken krijgen met Globale Localisatie-instorting bij het navigeren door schaarse, maandlange tijdlijnen. Om dit aan te pakken, stellen we de Recursieve Multimodale Agent (ReMA) voor, die dynamisch geheugenbeheer gebruikt om iteratief een recursieve geloofstoestand bij te werken, en daarmee aanzienlijk beter presteert dan bestaande methoden. Ten slotte stellen we datasplitsingen vast die zijn ontworpen om temporele en domeinvooroordelen te isoleren, waarmee een rigoureuze basis wordt gelegd voor toekomstig onderzoek naar supervised learning en out-of-distribution generalisatie.
English
While datasets for video understanding have scaled to hour-long durations, they typically consist of densely concatenated clips that differ from natural, unscripted daily life. To bridge this gap, we introduce MM-Lifelong, a dataset designed for Multimodal Lifelong Understanding. Comprising 181.1 hours of footage, it is structured across Day, Week, and Month scales to capture varying temporal densities. Extensive evaluations reveal two critical failure modes in current paradigms: end-to-end MLLMs suffer from a Working Memory Bottleneck due to context saturation, while representative agentic baselines experience Global Localization Collapse when navigating sparse, month-long timelines. To address this, we propose the Recursive Multimodal Agent (ReMA), which employs dynamic memory management to iteratively update a recursive belief state, significantly outperforming existing methods. Finally, we establish dataset splits designed to isolate temporal and domain biases, providing a rigorous foundation for future research in supervised learning and out-of-distribution generalization.
PDF42March 26, 2026