Deep Forcing : Génération de vidéos longues sans entraînement via Deep Sink et compression participative
Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression
December 4, 2025
papers.authors: Jung Yi, Wooseok Jang, Paul Hyunbin Cho, Jisu Nam, Heeji Yoon, Seungryong Kim
cs.AI
papers.abstract
Les progrès récents en matière de diffusion vidéo autorégressive ont permis le streaming d'images en temps réel, mais les solutions existantes souffrent encore de répétition temporelle, de dérive et de ralentissement du mouvement. Nous constatons qu'appliquer naïvement des "attention sinks" de type StreamingLLM à la diffusion vidéo entraîne une dégradation de la fidélité et une stagnation du mouvement. Pour surmonter cela, nous introduisons le "Deep Forcing", qui consiste en deux mécanismes sans entraînement permettant de résoudre ce problème sans aucun ajustement fin. Plus précisément, 1) "Deep Sink" consacre la moitié de la fenêtre glissante à des tokens "sink" persistants et réaligne leur phase temporelle RoPE à la chronologie actuelle, stabilisant le contexte global lors des générations longues. 2) La "Compression Participative" effectue un élagage du cache KV basé sur l'importance, préservant uniquement les tokens participant activement à l'attention récente tout en éliminant de manière sûre l'historique redondant et dégradé, minimisant ainsi l'accumulation d'erreurs lors de générations hors distribution en longueur. Ensemble, ces composants permettent une extrapolation de plus de 12x (par exemple, de 5s d'entraînement à 60s+ de génération) avec une meilleure qualité d'image que LongLive, une meilleure qualité esthétique que RollingForcing, maintenant presque la cohérence globale, et des gains substantiels en degré dynamique, le tout en maintenant une génération en temps réel. Nos résultats démontrent que la gestion du cache KV sans entraînement peut égaler ou dépasser les approches basées sur l'entraînement pour la génération en streaming autorégressif de vidéos longues.
English
Recent advances in autoregressive video diffusion have enabled real-time frame streaming, yet existing solutions still suffer from temporal repetition, drift, and motion deceleration. We find that naively applying StreamingLLM-style attention sinks to video diffusion leads to fidelity degradation and motion stagnation. To overcome this, we introduce Deep Forcing, which consists of two training-free mechanisms that address this without any fine-tuning. Specifically, 1) Deep Sink dedicates half of the sliding window to persistent sink tokens and re-aligns their temporal RoPE phase to the current timeline, stabilizing global context during long rollouts. 2) Participative Compression performs importance-aware KV cache pruning that preserves only tokens actively participating in recent attention while safely discarding redundant and degraded history, minimizing error accumulation under out-of-distribution length generation. Together, these components enable over 12x extrapolation (e.g. 5s-trained to 60s+ generation) with better imaging quality than LongLive, better aesthetic quality than RollingForcing, almost maintaining overall consistency, and substantial gains in dynamic degree, all while maintaining real-time generation. Our results demonstrate that training-free KV-cache management can match or exceed training-based approaches for autoregressively streaming long-video generation.