ChatPaper.aiChatPaper

Tiefes Forcing: Trainingsfreie Langvideogenerierung mit tiefem Sink und partizipativer Kompression

Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression

December 4, 2025
papers.authors: Jung Yi, Wooseok Jang, Paul Hyunbin Cho, Jisu Nam, Heeji Yoon, Seungryong Kim
cs.AI

papers.abstract

Jüngste Fortschritte bei autoregressiven Video-Diffusionsmodellen haben Echtzeit-Framestreaming ermöglicht, doch bestehende Lösungen leiden weiterhin unter zeitlicher Wiederholung, Drift und Bewegungsverlangsamung. Wir stellen fest, dass eine naive Anwendung von StreamingLLM-artigen Attention-Sinks auf Video-Diffusion zu Qualitätseinbußen und Bewegungsstagnation führt. Um dies zu überwinden, führen wir Deep Forcing ein, eine trainingsfreie Methode bestehend aus zwei Mechanismen, die dieses Problem ohne Feinjustierung lösen. Konkret: 1) Deep Sink reserviert die Hälfte des gleitenden Fensters für persistente Sink-Tokens und richtet deren temporale RoPE-Phase an der aktuellen Zeitleiste neu aus, um den globalen Kontext während langer Generierungssequenzen zu stabilisieren. 2) Participative Compression führt eine bedeutungsbewusste KV-Cache-Bereinigung durch, die nur aktiv an recenten Attention-Berechnungen beteiligte Tokens behält, während redundante und qualitätsgeminderte Historie sicher verworfen wird. Dies minimiert Fehlerakkumulation bei Out-of-Distribution-Längengenerierung. Zusammen ermöglichen diese Komponenten eine über 12-fache Extrapolation (z.B. von 5s Training zu 60s+ Generation) mit besserer Bildqualität als LongLive, besserer ästhetischer Qualität als RollingForcing bei nahezu erhaltener Gesamtkonsistenz und deutlichen Steigerungen im Dynamikgrad – alles bei Beibehaltung der Echtzeitgenerierung. Unsere Ergebnisse zeigen, dass trainingsfreies KV-Cache-Management trainigsbasierte Ansätze für autoregressives Streaming langer Videos übertreffen kann.
English
Recent advances in autoregressive video diffusion have enabled real-time frame streaming, yet existing solutions still suffer from temporal repetition, drift, and motion deceleration. We find that naively applying StreamingLLM-style attention sinks to video diffusion leads to fidelity degradation and motion stagnation. To overcome this, we introduce Deep Forcing, which consists of two training-free mechanisms that address this without any fine-tuning. Specifically, 1) Deep Sink dedicates half of the sliding window to persistent sink tokens and re-aligns their temporal RoPE phase to the current timeline, stabilizing global context during long rollouts. 2) Participative Compression performs importance-aware KV cache pruning that preserves only tokens actively participating in recent attention while safely discarding redundant and degraded history, minimizing error accumulation under out-of-distribution length generation. Together, these components enable over 12x extrapolation (e.g. 5s-trained to 60s+ generation) with better imaging quality than LongLive, better aesthetic quality than RollingForcing, almost maintaining overall consistency, and substantial gains in dynamic degree, all while maintaining real-time generation. Our results demonstrate that training-free KV-cache management can match or exceed training-based approaches for autoregressively streaming long-video generation.
PDF21December 6, 2025