ChatPaper.aiChatPaper

EgoLCD: Generazione di Video in Prima Persona con Diffusione a Lungo Contesto

EgoLCD: Egocentric Video Generation with Long Context Diffusion

December 4, 2025
Autori: Liuzhou Zhang, Jiarui Ye, Yuanlei Wang, Ming Zhong, Mingju Cao, Wanke Xia, Bowen Zeng, Zeyu Zhang, Hao Tang
cs.AI

Abstract

La generazione di video egocentrici lunghi e coerenti è complessa, poiché le interazioni mano-oggetto e i compiti procedurali richiedono una memoria a lungo termine affidabile. I modelli autoregressivi esistenti soffrono di deriva del contenuto (content drift), dove l'identità degli oggetti e la semantica della scena si degradano nel tempo. Per affrontare questa sfida, introduciamo EgoLCD, un framework end-to-end per la generazione di video egocentrici a lungo contesto che tratta la sintesi di video lunghi come un problema di gestione efficiente e stabile della memoria. EgoLCD combina una Long-Term Sparse KV Cache per un contesto globale stabile con una memoria a breve termine basata su attention, estesa tramite LoRA per l'adattamento locale. Una Memory Regulation Loss impiega un utilizzo coerente della memoria, mentre lo Structured Narrative Prompting fornisce una guida temporale esplicita. Esperimenti estesi sul benchmark EgoVid-5M dimostrano che EgoLCD raggiunge prestazioni allo stato dell'arte sia nella qualità percettiva che nella coerenza temporale, mitigando efficacemente l'oblio generativo e rappresentando un passo significativo verso la costruzione di modelli del mondo scalabili per l'AI embodied. Codice: https://github.com/AIGeeksGroup/EgoLCD. Sito web: https://aigeeksgroup.github.io/EgoLCD.
English
Generating long, coherent egocentric videos is difficult, as hand-object interactions and procedural tasks require reliable long-term memory. Existing autoregressive models suffer from content drift, where object identity and scene semantics degrade over time. To address this challenge, we introduce EgoLCD, an end-to-end framework for egocentric long-context video generation that treats long video synthesis as a problem of efficient and stable memory management. EgoLCD combines a Long-Term Sparse KV Cache for stable global context with an attention-based short-term memory, extended by LoRA for local adaptation. A Memory Regulation Loss enforces consistent memory usage, and Structured Narrative Prompting provides explicit temporal guidance. Extensive experiments on the EgoVid-5M benchmark demonstrate that EgoLCD achieves state-of-the-art performance in both perceptual quality and temporal consistency, effectively mitigating generative forgetting and representing a significant step toward building scalable world models for embodied AI. Code: https://github.com/AIGeeksGroup/EgoLCD. Website: https://aigeeksgroup.github.io/EgoLCD.
PDF52December 21, 2025