EgoLCD: Egocentrische Videogeneratie met Long Context Diffusie
EgoLCD: Egocentric Video Generation with Long Context Diffusion
December 4, 2025
Auteurs: Liuzhou Zhang, Jiarui Ye, Yuanlei Wang, Ming Zhong, Mingju Cao, Wanke Xia, Bowen Zeng, Zeyu Zhang, Hao Tang
cs.AI
Samenvatting
Het genereren van lange, coherente egocentrische video's is een uitdaging, omdat hand-objectinteracties en procedurele taken een betrouwbaar langetermijngeheugen vereisen. Bestaande autoregressieve modellen kampen met content drift, waarbij objectidentiteit en scènesemantiek in de loop van de tijd degraderen. Om deze uitdaging aan te pakken, introduceren we EgoLCD, een end-to-end raamwerk voor egocentrische lange-context videogeneratie dat lange videosynthese benadert als een probleem van efficiënt en stabiel geheugenbeheer. EgoLCD combineert een Long-Term Sparse KV Cache voor stabiele globale context met een op aandacht gebaseerd kortetermijngeheugen, uitgebreid met LoRA voor lokale aanpassing. Een Memory Regulation Loss dwingt consistent geheugengebruik af, en Gestructureerde Narratieve Prompting biedt expliciete temporele begeleiding. Uitgebreide experimenten op de EgoVid-5M benchmark tonen aan dat EgoLCD state-of-the-art prestaties bereikt in zowel perceptuele kwaliteit als temporele consistentie, waarbij generatief vergeten effectief wordt gemitigeerd. Dit vertegenwoordigt een significante stap richting het bouwen van schaalbare wereldmodellen voor belichaamde AI. Code: https://github.com/AIGeeksGroup/EgoLCD. Website: https://aigeeksgroup.github.io/EgoLCD.
English
Generating long, coherent egocentric videos is difficult, as hand-object interactions and procedural tasks require reliable long-term memory. Existing autoregressive models suffer from content drift, where object identity and scene semantics degrade over time. To address this challenge, we introduce EgoLCD, an end-to-end framework for egocentric long-context video generation that treats long video synthesis as a problem of efficient and stable memory management. EgoLCD combines a Long-Term Sparse KV Cache for stable global context with an attention-based short-term memory, extended by LoRA for local adaptation. A Memory Regulation Loss enforces consistent memory usage, and Structured Narrative Prompting provides explicit temporal guidance. Extensive experiments on the EgoVid-5M benchmark demonstrate that EgoLCD achieves state-of-the-art performance in both perceptual quality and temporal consistency, effectively mitigating generative forgetting and representing a significant step toward building scalable world models for embodied AI. Code: https://github.com/AIGeeksGroup/EgoLCD. Website: https://aigeeksgroup.github.io/EgoLCD.