EgoLCD: Генерация эгоцентричного видео с помощью диффузии в длинном контексте
EgoLCD: Egocentric Video Generation with Long Context Diffusion
December 4, 2025
Авторы: Liuzhou Zhang, Jiarui Ye, Yuanlei Wang, Ming Zhong, Mingju Cao, Wanke Xia, Bowen Zeng, Zeyu Zhang, Hao Tang
cs.AI
Аннотация
Создание длинных связных эгоцентричных видео представляет сложность, поскольку взаимодействия рук с объектами и процедурные задачи требуют надежной долговременной памяти. Существующие авторегрессионные модели страдают от дрейфа контента, при котором идентичность объектов и семантика сцены деградируют со временем. Для решения этой проблемы мы представляем EgoLCD — сквозную архитектуру для генерации эгоцентричных видео с длинным контекстом, которая рассматривает синтез длинных видео как задачу эффективного и стабильного управления памятью. EgoLCD сочетает разреженный долговременный кэш ключей-значений (Long-Term Sparse KV Cache) для стабильного глобального контекста с кратковременной памятью на основе механизма внимания, расширенной методом LoRA для локальной адаптации. Функция потерь регуляризации памяти (Memory Regulation Loss) обеспечивает согласованное использование памяти, а структурированные нарративные промты (Structured Narrative Prompting) предоставляют явные временные ориентиры. Многочисленные эксперименты на benchmark EgoVid-5M демонстрируют, что EgoLCD достигает наилучших результатов как по перцептивному качеству, так и по временной согласованности, эффективно снижая эффект генеративного забывания и представляя значительный шаг к созданию масштабируемых мировых моделей для воплощенного ИИ. Код: https://github.com/AIGeeksGroup/EgoLCD. Сайт: https://aigeeksgroup.github.io/EgoLCD.
English
Generating long, coherent egocentric videos is difficult, as hand-object interactions and procedural tasks require reliable long-term memory. Existing autoregressive models suffer from content drift, where object identity and scene semantics degrade over time. To address this challenge, we introduce EgoLCD, an end-to-end framework for egocentric long-context video generation that treats long video synthesis as a problem of efficient and stable memory management. EgoLCD combines a Long-Term Sparse KV Cache for stable global context with an attention-based short-term memory, extended by LoRA for local adaptation. A Memory Regulation Loss enforces consistent memory usage, and Structured Narrative Prompting provides explicit temporal guidance. Extensive experiments on the EgoVid-5M benchmark demonstrate that EgoLCD achieves state-of-the-art performance in both perceptual quality and temporal consistency, effectively mitigating generative forgetting and representing a significant step toward building scalable world models for embodied AI. Code: https://github.com/AIGeeksGroup/EgoLCD. Website: https://aigeeksgroup.github.io/EgoLCD.