Deep Forcing: Training-vrije lange videogeneratie met Deep Sink en participerende compressie
Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression
December 4, 2025
Auteurs: Jung Yi, Wooseok Jang, Paul Hyunbin Cho, Jisu Nam, Heeji Yoon, Seungryong Kim
cs.AI
Samenvatting
Recente vooruitgang in autoregressieve videodiffusie heeft realtime frame-streaming mogelijk gemaakt, maar bestaande oplossingen kampen nog steeds met temporele herhaling, drift en bewegingvertraging. Wij stellen vast dat het eenvoudig toepassen van StreamingLLM-achtige 'attention sinks' op videodiffusie leidt tot kwaliteitsverlies en bewegingsstagnatie. Om dit te overwinnen, introduceren wij Deep Forcing, dat bestaat uit twee mechanismen zonder training die dit verhelpen zonder enige fine-tuning. Specifiek: 1) Deep Sink wijdt de helft van het schuivende venster aan persistente sink-tokens en herlijnt hun temporele RoPE-fase naar de huidige tijdlijn, waardoor de globale context wordt gestabiliseerd tijdens lange rollouts. 2) Participatieve Compressie voert belangstellingsbewuste KV-cache-snoeiing uit die alleen tokens behoudt die actief deelnemen aan recente aandacht, terwijl overbodige en gedegradeerde geschiedenis veilig wordt verwijderd, waardoor foutaccumulatie wordt geminimaliseerd bij generatie buiten de distributielengte. Samen stellen deze componenten extrapolatie van meer dan 12x mogelijk (bijv. van 5s getraind naar 60s+ generatie) met een betere beeldkwaliteit dan LongLive, een betere esthetische kwaliteit dan RollingForcing, waarbij de algehele consistentie nagenoeg behouden blijft en er aanzienlijke winst wordt geboekt op het gebied van dynamiek, allemaal terwijl de realtime generatie behouden blijft. Onze resultaten tonen aan dat KV-cachebeheer zonder training kan concurreren met of zelfs beter kan presteren dan op training gebaseerde benaderingen voor het autoregressief streamen van lange-videogeneratie.
English
Recent advances in autoregressive video diffusion have enabled real-time frame streaming, yet existing solutions still suffer from temporal repetition, drift, and motion deceleration. We find that naively applying StreamingLLM-style attention sinks to video diffusion leads to fidelity degradation and motion stagnation. To overcome this, we introduce Deep Forcing, which consists of two training-free mechanisms that address this without any fine-tuning. Specifically, 1) Deep Sink dedicates half of the sliding window to persistent sink tokens and re-aligns their temporal RoPE phase to the current timeline, stabilizing global context during long rollouts. 2) Participative Compression performs importance-aware KV cache pruning that preserves only tokens actively participating in recent attention while safely discarding redundant and degraded history, minimizing error accumulation under out-of-distribution length generation. Together, these components enable over 12x extrapolation (e.g. 5s-trained to 60s+ generation) with better imaging quality than LongLive, better aesthetic quality than RollingForcing, almost maintaining overall consistency, and substantial gains in dynamic degree, all while maintaining real-time generation. Our results demonstrate that training-free KV-cache management can match or exceed training-based approaches for autoregressively streaming long-video generation.