ChatPaper.aiChatPaper

EgoLCD : Génération de vidéos égocentriques par diffusion à contexte long

EgoLCD: Egocentric Video Generation with Long Context Diffusion

December 4, 2025
papers.authors: Liuzhou Zhang, Jiarui Ye, Yuanlei Wang, Ming Zhong, Mingju Cao, Wanke Xia, Bowen Zeng, Zeyu Zhang, Hao Tang
cs.AI

papers.abstract

La génération de vidéos égocentriques longues et cohérentes est difficile, car les interactions main-objet et les tâches procédurales nécessitent une mémoire à long terme fiable. Les modèles autorégressifs existants souffrent d'une dérive de contenu, où l'identité des objets et la sémantique de la scène se dégradent avec le temps. Pour relever ce défi, nous présentons EgoLCD, un cadre end-to-end pour la génération de vidéos égocentriques à long contexte qui traite la synthèse vidéo longue comme un problème de gestion de mémoire efficace et stable. EgoLCD combine un Cache Sparse KV à Long Terme pour un contexte global stable avec une mémoire à court terme basée sur l'attention, étendue par LoRA pour l'adaptation locale. Une Loss de Régulation de la Mémoire impose une utilisation cohérente de la mémoire, et l'Invite Narrative Structurée fournit un guidage temporel explicite. Des expériences approfondies sur le benchmark EgoVid-5M démontrent qu'EgoLCD atteint des performances de pointe à la fois en qualité perceptuelle et en cohérence temporelle, atténuant efficacement l'oubli génératif et représentant une étape significative vers la construction de modèles du monde évolutifs pour l'IA incarnée. Code : https://github.com/AIGeeksGroup/EgoLCD. Site web : https://aigeeksgroup.github.io/EgoLCD.
English
Generating long, coherent egocentric videos is difficult, as hand-object interactions and procedural tasks require reliable long-term memory. Existing autoregressive models suffer from content drift, where object identity and scene semantics degrade over time. To address this challenge, we introduce EgoLCD, an end-to-end framework for egocentric long-context video generation that treats long video synthesis as a problem of efficient and stable memory management. EgoLCD combines a Long-Term Sparse KV Cache for stable global context with an attention-based short-term memory, extended by LoRA for local adaptation. A Memory Regulation Loss enforces consistent memory usage, and Structured Narrative Prompting provides explicit temporal guidance. Extensive experiments on the EgoVid-5M benchmark demonstrate that EgoLCD achieves state-of-the-art performance in both perceptual quality and temporal consistency, effectively mitigating generative forgetting and representing a significant step toward building scalable world models for embodied AI. Code: https://github.com/AIGeeksGroup/EgoLCD. Website: https://aigeeksgroup.github.io/EgoLCD.
PDF21December 6, 2025