ChatPaper.aiChatPaper

Vers une compréhension multimodale continue : un jeu de données et une base agentique

Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

March 5, 2026
Auteurs: Guo Chen, Lidong Lu, Yicheng Liu, Liangrui Dong, Lidong Zou, Jixin Lv, Zhenquan Li, Xinyi Mao, Baoqi Pei, Shihao Wang, Zhiqi Li, Karan Sapra, Fuxiao Liu, Yin-Dong Zheng, Yifei Huang, Limin Wang, Zhiding Yu, Andrew Tao, Guilin Liu, Tong Lu
cs.AI

Résumé

Alors que les ensembles de données pour la compréhension vidéo ont atteint des durées de plusieurs heures, ils consistent généralement en des clips densément concaténés qui diffèrent de la vie quotidienne non scénarisée et naturelle. Pour combler cette lacune, nous présentons MM-Lifelong, un ensemble de données conçu pour la Compréhension Multimodale Continue. Comprenant 181,1 heures de séquences, il est structuré selon des échelles Journalière, Hebdomadaire et Mensuelle pour capturer différentes densités temporelles. Des évaluations approfondies révèlent deux modes d'échec critiques dans les paradigmes actuels : les MLLM de bout en bout souffrent d'un Goulot d'étranglement de la Mémoire de Travail dû à la saturation du contexte, tandis que les bases de référence agentielles représentatives subissent un Effondrement de la Localisation Globale lors de la navigation dans des chronologies éparses s'étalant sur un mois. Pour résoudre ce problème, nous proposons l'Agent Multimodal Récurrent (ReMA), qui utilise une gestion dynamique de la mémoire pour mettre à jour itérativement un état de croyance récursif, surpassant significativement les méthodes existantes. Enfin, nous établissons des partitions de l'ensemble de données conçues pour isoler les biais temporels et domainaux, fournissant une base rigoureuse pour les futures recherches en apprentissage supervisé et en généralisation hors distribution.
English
While datasets for video understanding have scaled to hour-long durations, they typically consist of densely concatenated clips that differ from natural, unscripted daily life. To bridge this gap, we introduce MM-Lifelong, a dataset designed for Multimodal Lifelong Understanding. Comprising 181.1 hours of footage, it is structured across Day, Week, and Month scales to capture varying temporal densities. Extensive evaluations reveal two critical failure modes in current paradigms: end-to-end MLLMs suffer from a Working Memory Bottleneck due to context saturation, while representative agentic baselines experience Global Localization Collapse when navigating sparse, month-long timelines. To address this, we propose the Recursive Multimodal Agent (ReMA), which employs dynamic memory management to iteratively update a recursive belief state, significantly outperforming existing methods. Finally, we establish dataset splits designed to isolate temporal and domain biases, providing a rigorous foundation for future research in supervised learning and out-of-distribution generalization.
PDF42March 9, 2026