EgoLCD: Geração de Vídeo Egocêntrico com Difusão de Contexto Longo

Resumo

A geração de vídeos egocêntricos longos e coerentes é difícil, pois as interações mão-objeto e as tarefas procedurais exigem memória de longo prazo confiável. Os modelos autoregressivos existentes sofrem com deriva de conteúdo (content drift), onde a identidade dos objetos e a semântica da cena degradam-se ao longo do tempo. Para enfrentar este desafio, apresentamos o EgoLCD, uma estrutura end-to-end para geração de vídeos egocêntricos de longo contexto que trata a síntese de vídeos longos como um problema de gestão de memória eficiente e estável. O EgoLCD combina um Cache KV Esparso de Longo Prazo para contexto global estável com uma memória de curto prazo baseada em atenção, estendida por LoRA para adaptação local. Uma Perda de Regulação de Memória impõe um uso consistente da memória, e o Prompting Narrativo Estruturado fornece orientação temporal explícita. Experimentos extensivos no benchmark EgoVid-5M demonstram que o EgoLCD alcança desempenho state-of-the-art tanto em qualidade perceptual quanto em consistência temporal, mitigando efetivamente o esquecimento generativo e representando um passo significativo para a construção de modelos de mundo escaláveis para IA corporificada. Código: https://github.com/AIGeeksGroup/EgoLCD. Website: https://aigeeksgroup.github.io/EgoLCD.

English

Generating long, coherent egocentric videos is difficult, as hand-object interactions and procedural tasks require reliable long-term memory. Existing autoregressive models suffer from content drift, where object identity and scene semantics degrade over time. To address this challenge, we introduce EgoLCD, an end-to-end framework for egocentric long-context video generation that treats long video synthesis as a problem of efficient and stable memory management. EgoLCD combines a Long-Term Sparse KV Cache for stable global context with an attention-based short-term memory, extended by LoRA for local adaptation. A Memory Regulation Loss enforces consistent memory usage, and Structured Narrative Prompting provides explicit temporal guidance. Extensive experiments on the EgoVid-5M benchmark demonstrate that EgoLCD achieves state-of-the-art performance in both perceptual quality and temporal consistency, effectively mitigating generative forgetting and representing a significant step toward building scalable world models for embodied AI. Code: https://github.com/AIGeeksGroup/EgoLCD. Website: https://aigeeksgroup.github.io/EgoLCD.

EgoLCD: Geração de Vídeo Egocêntrico com Difusão de Contexto Longo

EgoLCD: Egocentric Video Generation with Long Context Diffusion

Resumo

Support