ChatPaper.aiChatPaper

EgoLCD:長文脈拡散によるエゴセントリック動画生成

EgoLCD: Egocentric Video Generation with Long Context Diffusion

December 4, 2025
著者: Liuzhou Zhang, Jiarui Ye, Yuanlei Wang, Ming Zhong, Mingju Cao, Wanke Xia, Bowen Zeng, Zeyu Zhang, Hao Tang
cs.AI

要旨

長く一貫性のあるエゴセントリック動画の生成は困難な課題である。なぜなら、手と物体の相互作用や手順を要するタスクには信頼性の高い長期記憶が求められるからだ。既存の自己回帰モデルはコンテンツドリフト(時間の経過とともに物体の同一性やシーンの意味情報が劣化する問題)に悩まされている。この課題に対処するため、我々はEgoLCDを提案する。これは、長い動画合成を効率的かつ安定的なメモリ管理の問題として捉える、エンドツーエンドのエゴセントリック長文脈動画生成フレームワークである。EgoLCDは、安定した大域的文脈を保持するための長期スパースKVキャッシュと、注意機構に基づく短期記憶を組み合わせており、後者はLoRAによる局所的適応によって拡張されている。メモリ調整損失により一貫したメモリ使用が強制され、構造化ナラティブプロンプトが明示的な時間的ガイダンスを提供する。EgoVid-5Mベンチマークを用いた広範な実験により、EgoLCDが知覚的品質と時間的一貫性の両方において最先端の性能を達成し、生成的忘却を効果的に軽減し、具身AIのためのスケーラブルな世界モデル構築に向けた重要な一歩を表すことが実証された。コード: https://github.com/AIGeeksGroup/EgoLCD. ウェブサイト: https://aigeeksgroup.github.io/EgoLCD.
English
Generating long, coherent egocentric videos is difficult, as hand-object interactions and procedural tasks require reliable long-term memory. Existing autoregressive models suffer from content drift, where object identity and scene semantics degrade over time. To address this challenge, we introduce EgoLCD, an end-to-end framework for egocentric long-context video generation that treats long video synthesis as a problem of efficient and stable memory management. EgoLCD combines a Long-Term Sparse KV Cache for stable global context with an attention-based short-term memory, extended by LoRA for local adaptation. A Memory Regulation Loss enforces consistent memory usage, and Structured Narrative Prompting provides explicit temporal guidance. Extensive experiments on the EgoVid-5M benchmark demonstrate that EgoLCD achieves state-of-the-art performance in both perceptual quality and temporal consistency, effectively mitigating generative forgetting and representing a significant step toward building scalable world models for embodied AI. Code: https://github.com/AIGeeksGroup/EgoLCD. Website: https://aigeeksgroup.github.io/EgoLCD.
PDF21December 6, 2025