ChatPaper.aiChatPaper

EgoLCD: Generación de Vídeo Egocéntrico con Difusión de Contexto Largo

EgoLCD: Egocentric Video Generation with Long Context Diffusion

December 4, 2025
Autores: Liuzhou Zhang, Jiarui Ye, Yuanlei Wang, Ming Zhong, Mingju Cao, Wanke Xia, Bowen Zeng, Zeyu Zhang, Hao Tang
cs.AI

Resumen

La generación de vídeos egocéntricos largos y coherentes es difícil, ya que las interacciones mano-objeto y las tareas procedimentales requieren una memoria a largo plazo fiable. Los modelos autorregresivos existentes adolecen de deriva de contenido, donde la identidad de los objetos y la semántica de la escena se degradan con el tiempo. Para abordar este desafío, presentamos EgoLCD, un marco integral para la generación de vídeos egocéntricos de contexto largo que trata la síntesis de vídeo largo como un problema de gestión de memoria eficiente y estable. EgoLCD combina una Caché KV Dispersa a Largo Plazo para un contexto global estable con una memoria a corto plazo basada en atención, extendida mediante LoRA para la adaptación local. Una Pérdida de Regulación de Memoria impone un uso consistente de la memoria, y el Prompting Narrativo Estructurado proporciona una guía temporal explícita. Experimentos exhaustivos en el benchmark EgoVid-5M demuestran que EgoLCD logra un rendimiento de vanguardia tanto en calidad perceptual como en consistencia temporal, mitigando efectivamente el olvido generativo y representando un paso significativo hacia la construcción de modelos del mundo escalables para la IA encarnada. Código: https://github.com/AIGeeksGroup/EgoLCD. Sitio web: https://aigeeksgroup.github.io/EgoLCD.
English
Generating long, coherent egocentric videos is difficult, as hand-object interactions and procedural tasks require reliable long-term memory. Existing autoregressive models suffer from content drift, where object identity and scene semantics degrade over time. To address this challenge, we introduce EgoLCD, an end-to-end framework for egocentric long-context video generation that treats long video synthesis as a problem of efficient and stable memory management. EgoLCD combines a Long-Term Sparse KV Cache for stable global context with an attention-based short-term memory, extended by LoRA for local adaptation. A Memory Regulation Loss enforces consistent memory usage, and Structured Narrative Prompting provides explicit temporal guidance. Extensive experiments on the EgoVid-5M benchmark demonstrate that EgoLCD achieves state-of-the-art performance in both perceptual quality and temporal consistency, effectively mitigating generative forgetting and representing a significant step toward building scalable world models for embodied AI. Code: https://github.com/AIGeeksGroup/EgoLCD. Website: https://aigeeksgroup.github.io/EgoLCD.
PDF21December 6, 2025