ChatPaper.aiChatPaper

深層強制:ディープシンクと参加型圧縮によるトレーニング不要の長尺動画生成

Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression

December 4, 2025
著者: Jung Yi, Wooseok Jang, Paul Hyunbin Cho, Jisu Nam, Heeji Yoon, Seungryong Kim
cs.AI

要旨

オートリグレッシブ動画拡散モデルの最近の進歩により、リアルタイムフレームストリーミングが可能となったが、既存の手法では時間的な反復、ドリフト、動きの減速といった課題が依然として存在する。我々は、StreamingLLMスタイルのアテンションシンクを動画拡散モデルに単純に適用すると、忠実度の低下や動きの停滞を招くことを見出した。この問題を克服するため、我々はファインチューニングを一切必要としない、訓練不要の二つのメカニズムから成るDeep Forcingを提案する。具体的には、1) Deep Sinkはスライディングウィンドウの半分を永続的なシンクトークンに割り当て、それらの時間的RoPE位相を現在のタイムラインに再調整することで、長時間の生成におけるグローバルコンテキストを安定化する。2) Participative Compressionは、重要度を考慮したKVキャッシュの剪定を行い、最近のアテンションに積極的に参加しているトークンのみを保持し、冗長かつ劣化した履歴を安全に破棄することで、分布外長さの生成における誤差蓄積を最小化する。これらの構成要素を組み合わせることで、12倍以上の外挿(例:5秒学習で60秒以上の生成)を実現し、LongLiveを上回る画質、RollingForcingを上回る美的品質、全体的な一貫性をほぼ維持し、動的性において大幅な向上を示しつつ、リアルタイム生成を維持する。我々の結果は、訓練不要のKVキャッシュ管理が、オートリグレッシブな長尺動画生成ストリーミングにおいて、訓練ベースのアプローチに匹敵あるいは凌駕する性能を発揮し得ることを実証している。
English
Recent advances in autoregressive video diffusion have enabled real-time frame streaming, yet existing solutions still suffer from temporal repetition, drift, and motion deceleration. We find that naively applying StreamingLLM-style attention sinks to video diffusion leads to fidelity degradation and motion stagnation. To overcome this, we introduce Deep Forcing, which consists of two training-free mechanisms that address this without any fine-tuning. Specifically, 1) Deep Sink dedicates half of the sliding window to persistent sink tokens and re-aligns their temporal RoPE phase to the current timeline, stabilizing global context during long rollouts. 2) Participative Compression performs importance-aware KV cache pruning that preserves only tokens actively participating in recent attention while safely discarding redundant and degraded history, minimizing error accumulation under out-of-distribution length generation. Together, these components enable over 12x extrapolation (e.g. 5s-trained to 60s+ generation) with better imaging quality than LongLive, better aesthetic quality than RollingForcing, almost maintaining overall consistency, and substantial gains in dynamic degree, all while maintaining real-time generation. Our results demonstrate that training-free KV-cache management can match or exceed training-based approaches for autoregressively streaming long-video generation.
PDF21December 6, 2025