ChatPaper.aiChatPaper

EgoLCD: Egocentrische Videogenerierung mit Long-Context-Diffusion

EgoLCD: Egocentric Video Generation with Long Context Diffusion

December 4, 2025
papers.authors: Liuzhou Zhang, Jiarui Ye, Yuanlei Wang, Ming Zhong, Mingju Cao, Wanke Xia, Bowen Zeng, Zeyu Zhang, Hao Tang
cs.AI

papers.abstract

Die Generierung langer, kohärenter egocentrischer Videos ist schwierig, da Hand-Objekt-Interaktionen und prozedurale Aufgaben ein zuverlässiges Langzeitgedächtnis erfordern. Bestehende autoregressive Modelle leiden unter Inhaltsdrift, bei der sich Objektidentität und Szenensemantik über die Zeit verschlechtern. Um diese Herausforderung zu bewältigen, stellen wir EgoLCD vor, ein End-to-End-Framework für die egocentrische Videogenerierung mit langem Kontext, das die Synthese langer Videos als Problem eines effizienten und stabilen Speichermanagements behandelt. EgoLCD kombiniert einen spärlichen Langzeit-KV-Cache für stabilen globalen Kontext mit einem aufmerksamkeitsbasierten Kurzzeitgedächtnis, das durch LoRA für lokale Anpassung erweitert wird. Ein Memory-Regulation-Loss erzwingt eine konsistente Speichernutzung, und strukturiertes narratives Prompting bietet explizite zeitliche Führung. Umfangreiche Experimente auf dem EgoVid-5M-Benchmark zeigen, dass EgoLCD state-of-the-art Leistung sowohl in wahrgenommener Qualität als auch in zeitlicher Konsistenz erreicht, generatives Vergessen wirksam mindert und einen bedeutenden Schritt in Richtung skalierbarer Weltmodelle für embodied AI darstellt. Code: https://github.com/AIGeeksGroup/EgoLCD. Website: https://aigeeksgroup.github.io/EgoLCD.
English
Generating long, coherent egocentric videos is difficult, as hand-object interactions and procedural tasks require reliable long-term memory. Existing autoregressive models suffer from content drift, where object identity and scene semantics degrade over time. To address this challenge, we introduce EgoLCD, an end-to-end framework for egocentric long-context video generation that treats long video synthesis as a problem of efficient and stable memory management. EgoLCD combines a Long-Term Sparse KV Cache for stable global context with an attention-based short-term memory, extended by LoRA for local adaptation. A Memory Regulation Loss enforces consistent memory usage, and Structured Narrative Prompting provides explicit temporal guidance. Extensive experiments on the EgoVid-5M benchmark demonstrate that EgoLCD achieves state-of-the-art performance in both perceptual quality and temporal consistency, effectively mitigating generative forgetting and representing a significant step toward building scalable world models for embodied AI. Code: https://github.com/AIGeeksGroup/EgoLCD. Website: https://aigeeksgroup.github.io/EgoLCD.
PDF21December 6, 2025