Deep Forcing: Generazione di Video Lunghi Senza Addestramento con Deep Sink e Compressione Partecipativa
Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression
December 4, 2025
Autori: Jung Yi, Wooseok Jang, Paul Hyunbin Cho, Jisu Nam, Heeji Yoon, Seungryong Kim
cs.AI
Abstract
I recenti progressi nella diffusione video autoregressiva hanno abilitato lo streaming di frame in tempo reale, ma le soluzioni esistenti soffrono ancora di ripetizione temporale, deriva e decelerazione del movimento. Rileviamo che l'applicazione ingenua di meccanismi di tipo StreamingLLM (attention sinks) alla diffusione video porta a degradazione della fedeltà e stagnazione del movimento. Per superare questo limite, introduciamo Deep Forcing, che consiste in due meccanismi privi di addestramento che affrontano il problema senza alcuna fine-tuning. Nello specifico: 1) Deep Sink dedica metà della finestra scorrevole a token sink persistenti e riallinea la loro fase temporale RoPE alla timeline corrente, stabilizzando il contesto globale durante rollout lunghi. 2) Participative Compression esegue una potatura della cache KV basata sull'importanza, preservando solo i token che partecipano attivamente all'attenzione recente mentre scarta in sicurezza la storia ridondante e degradata, minimizzando l'accumulo di errori durante generazioni di lunghezza fuori distribuzione. Insieme, questi componenti abilitano estrapolazioni superiori a 12x (ad esempio, da modelli addestrati su 5s a generazioni di 60s+) con qualità d'immagine migliore di LongLive, qualità estetica superiore a RollingForcing, mantenendo quasi la consistenza complessiva e ottenendo sostanziali guadagni nel grado dinamico, tutto mantenendo la generazione in tempo reale. I nostri risultati dimostrano che la gestione della cache KV senza addestramento può eguagliare o superare gli approcci basati su training per la generazione autoregressiva in streaming di video lunghi.
English
Recent advances in autoregressive video diffusion have enabled real-time frame streaming, yet existing solutions still suffer from temporal repetition, drift, and motion deceleration. We find that naively applying StreamingLLM-style attention sinks to video diffusion leads to fidelity degradation and motion stagnation. To overcome this, we introduce Deep Forcing, which consists of two training-free mechanisms that address this without any fine-tuning. Specifically, 1) Deep Sink dedicates half of the sliding window to persistent sink tokens and re-aligns their temporal RoPE phase to the current timeline, stabilizing global context during long rollouts. 2) Participative Compression performs importance-aware KV cache pruning that preserves only tokens actively participating in recent attention while safely discarding redundant and degraded history, minimizing error accumulation under out-of-distribution length generation. Together, these components enable over 12x extrapolation (e.g. 5s-trained to 60s+ generation) with better imaging quality than LongLive, better aesthetic quality than RollingForcing, almost maintaining overall consistency, and substantial gains in dynamic degree, all while maintaining real-time generation. Our results demonstrate that training-free KV-cache management can match or exceed training-based approaches for autoregressively streaming long-video generation.