Forzado Profundo: Generación de Videos Largos sin Entrenamiento con Hundimiento Profundo y Compresión Participativa
Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression
December 4, 2025
Autores: Jung Yi, Wooseok Jang, Paul Hyunbin Cho, Jisu Nam, Heeji Yoon, Seungryong Kim
cs.AI
Resumen
Los recientes avances en la difusión de video autoregresiva han permitido la transmisión de fotogramas en tiempo real, pero las soluciones existentes aún adolecen de repetición temporal, deriva y desaceleración del movimiento. Encontramos que aplicar de forma ingenua los "puntos de atención" estilo StreamingLLM a la difusión de video conduce a una degradación de la fidelidad y a un estancamiento del movimiento. Para superar esto, presentamos Deep Forcing, que consiste en dos mecanismos sin entrenamiento que abordan este problema sin necesidad de ajuste fino. Específicamente, 1) Deep Sink dedica la mitad de la ventana deslizante a "tokens sumidero" persistentes y realinea su fase temporal RoPE con la línea de tiempo actual, estabilizando el contexto global durante las secuencias largas. 2) La Compresión Participativa realiza una poda de la caché KV basada en la importancia que preserva solo los tokens que participan activamente en la atención reciente, mientras descarta de forma segura el historial redundante y degradado, minimizando la acumulación de errores bajo generación de longitud fuera de distribución. Juntos, estos componentes permiten una extrapolación de más de 12x (por ejemplo, de 5s entrenados a más de 60s de generación) con mejor calidad de imagen que LongLive, mejor calidad estética que RollingForcing, manteniendo casi la consistencia general y logrando ganancias sustanciales en el grado dinámico, todo ello manteniendo la generación en tiempo real. Nuestros resultados demuestran que la gestión de la caché KV sin entrenamiento puede igualar o superar a los enfoques basados en entrenamiento para la generación de video largo en streaming autoregresivo.
English
Recent advances in autoregressive video diffusion have enabled real-time frame streaming, yet existing solutions still suffer from temporal repetition, drift, and motion deceleration. We find that naively applying StreamingLLM-style attention sinks to video diffusion leads to fidelity degradation and motion stagnation. To overcome this, we introduce Deep Forcing, which consists of two training-free mechanisms that address this without any fine-tuning. Specifically, 1) Deep Sink dedicates half of the sliding window to persistent sink tokens and re-aligns their temporal RoPE phase to the current timeline, stabilizing global context during long rollouts. 2) Participative Compression performs importance-aware KV cache pruning that preserves only tokens actively participating in recent attention while safely discarding redundant and degraded history, minimizing error accumulation under out-of-distribution length generation. Together, these components enable over 12x extrapolation (e.g. 5s-trained to 60s+ generation) with better imaging quality than LongLive, better aesthetic quality than RollingForcing, almost maintaining overall consistency, and substantial gains in dynamic degree, all while maintaining real-time generation. Our results demonstrate that training-free KV-cache management can match or exceed training-based approaches for autoregressively streaming long-video generation.