EgoLCD: 장기 콘텍스트 확산 모델을 활용한 에고센트릭 비디오 생성
EgoLCD: Egocentric Video Generation with Long Context Diffusion
December 4, 2025
저자: Liuzhou Zhang, Jiarui Ye, Yuanlei Wang, Ming Zhong, Mingju Cao, Wanke Xia, Bowen Zeng, Zeyu Zhang, Hao Tang
cs.AI
초록
장기적이고 일관된 에고센트릭 비디오 생성은 손-객체 상호작용과 절차적 작업이 신뢰할 수 있는 장기 기억을 필요로 하기 때문에 어려운 과제입니다. 기존의 자기회귀 모델은 객체 정체성과 장면 의미론이 시간이 지남에 따라 저하되는 내용 드리프트(content drift) 문제를 겪습니다. 이러한 문제를 해결하기 위해 우리는 장기 비디오 합성을 효율적이고 안정적인 메모리 관리 문제로 접근하는 에고센트릭 장기 문맥 비디오 생성용 종단간(end-to-end) 프레임워크인 EgoLCD를 소개합니다. EgoLCD는 안정적인 전역 문맥을 위한 장기 희소 KV 캐시(Long-Term Sparse KV Cache)와 LoRA를 통해 지역 적응성을 확장한 어텐션 기반 단기 기억을 결합합니다. 메모리 규제 손실(Memory Regulation Loss)은 일관된 메모리 사용을 강화하며, 구조화된 서사적 프롬프트(Structured Narrative Prompting)는 명시적인 시간적 지침을 제공합니다. EgoVid-5M 벤치마크에서의 광범위한 실험을 통해 EgoLCD가 지각적 품질과 시간적 일관성 모두에서 최첨단 성능을 달성하며, 생성적 망각(generative forgetting)을 효과적으로 완화하고 구현형 AI(embodied AI)를 위한 확장 가능한 세계 모델 구축에 중요한 진전을 나타냄을 입증했습니다. 코드: https://github.com/AIGeeksGroup/EgoLCD. 웹사이트: https://aigeeksgroup.github.io/EgoLCD.
English
Generating long, coherent egocentric videos is difficult, as hand-object interactions and procedural tasks require reliable long-term memory. Existing autoregressive models suffer from content drift, where object identity and scene semantics degrade over time. To address this challenge, we introduce EgoLCD, an end-to-end framework for egocentric long-context video generation that treats long video synthesis as a problem of efficient and stable memory management. EgoLCD combines a Long-Term Sparse KV Cache for stable global context with an attention-based short-term memory, extended by LoRA for local adaptation. A Memory Regulation Loss enforces consistent memory usage, and Structured Narrative Prompting provides explicit temporal guidance. Extensive experiments on the EgoVid-5M benchmark demonstrate that EgoLCD achieves state-of-the-art performance in both perceptual quality and temporal consistency, effectively mitigating generative forgetting and representing a significant step toward building scalable world models for embodied AI. Code: https://github.com/AIGeeksGroup/EgoLCD. Website: https://aigeeksgroup.github.io/EgoLCD.