Hacia una Comprensión Multimodal Continua: Un Conjunto de Datos y una Línea Base Agéntica
Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline
March 5, 2026
Autores: Guo Chen, Lidong Lu, Yicheng Liu, Liangrui Dong, Lidong Zou, Jixin Lv, Zhenquan Li, Xinyi Mao, Baoqi Pei, Shihao Wang, Zhiqi Li, Karan Sapra, Fuxiao Liu, Yin-Dong Zheng, Yifei Huang, Limin Wang, Zhiding Yu, Andrew Tao, Guilin Liu, Tong Lu
cs.AI
Resumen
Si bien los conjuntos de datos para la comprensión de video han escalado a duraciones de horas, generalmente consisten en clips densamente concatenados que difieren de la vida diaria natural y no guionada. Para cerrar esta brecha, presentamos MM-Lifelong, un conjunto de datos diseñado para la Comprensión Multimodal Continua. Comprendiendo 181.1 horas de metraje, está estructurado en escalas de Día, Semana y Mes para capturar densidades temporales variables. Evaluaciones exhaustivas revelan dos modos de fallo críticos en los paradigmas actuales: los MLLM de extremo a extremo sufren de un Cuello de Botella de Memoria de Trabajo debido a la saturación del contexto, mientras que los baselines agentivos representativos experimentan un Colapso de Localización Global al navegar líneas de tiempo dispersas de larga duración mensual. Para abordar esto, proponemos el Agente Multimodal Recursivo (ReMA), que emplea una gestión dinámica de memoria para actualizar iterativamente un estado de creencia recursivo, superando significativamente a los métodos existentes. Finalmente, establecemos divisiones del conjunto de datos diseñadas para aislar sesgos temporales y de dominio, proporcionando una base rigurosa para futuras investigaciones en aprendizaje supervisado y generalización fuera de distribución.
English
While datasets for video understanding have scaled to hour-long durations, they typically consist of densely concatenated clips that differ from natural, unscripted daily life. To bridge this gap, we introduce MM-Lifelong, a dataset designed for Multimodal Lifelong Understanding. Comprising 181.1 hours of footage, it is structured across Day, Week, and Month scales to capture varying temporal densities. Extensive evaluations reveal two critical failure modes in current paradigms: end-to-end MLLMs suffer from a Working Memory Bottleneck due to context saturation, while representative agentic baselines experience Global Localization Collapse when navigating sparse, month-long timelines. To address this, we propose the Recursive Multimodal Agent (ReMA), which employs dynamic memory management to iteratively update a recursive belief state, significantly outperforming existing methods. Finally, we establish dataset splits designed to isolate temporal and domain biases, providing a rigorous foundation for future research in supervised learning and out-of-distribution generalization.