Глубокое принуждение: Бестренировочная генерация длинных видео с глубокой стабилизацией и партисипативным сжатием
Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression
December 4, 2025
Авторы: Jung Yi, Wooseok Jang, Paul Hyunbin Cho, Jisu Nam, Heeji Yoon, Seungryong Kim
cs.AI
Аннотация
Последние достижения в области авторегрессионной видеодиффузии позволили организовать потоковую передачу кадров в реальном времени, однако существующие решения по-прежнему страдают от временных повторов, дрейфа и замедления движения. Мы обнаружили, что прямое применение механизмов "внимания к синкам" в стиле StreamingLLM к видеодиффузии приводит к деградации качества изображения и стагнации движения. Чтобы преодолеть это, мы представляем метод Deep Forcing, который состоит из двух механизмов, не требующих дообучения и решающих данную проблему. А именно: 1) Deep Sink выделяет половину скользящего окна под постоянные токены-синки и перевыравнивает их временную фазу RoPE в соответствии с текущей временной шкалой, стабилизируя глобальный контекст при длительной генерации. 2) Participative Compression выполняет важностно-осознанное прореживание KV-кэша, сохраняя только те токены, которые активно участвуют в последних операциях внимания, и безопасно отбрасывая избыточную и деградировавшую историю, что минимизирует накопление ошибок при генерации последовательностей вне распределения обучающей длины. Вместе эти компоненты позволяют достичь экстраполяции более чем в 12 раз (например, с обученной длины 5 с до генерации 60+ с) с лучшим качеством изображения, чем у LongLive, лучшим эстетическим качеством, чем у RollingForcing, практически сохраняя общую согласованность и значительно улучшая степень динамичности, — и всё это при сохранении генерации в реальном времени. Наши результаты демонстрируют, что управление KV-кэшем без дообучения может сравниться или превзойти подходы, основанные на дообучении, для авторегрессионной потоковой генерации длинных видео.
English
Recent advances in autoregressive video diffusion have enabled real-time frame streaming, yet existing solutions still suffer from temporal repetition, drift, and motion deceleration. We find that naively applying StreamingLLM-style attention sinks to video diffusion leads to fidelity degradation and motion stagnation. To overcome this, we introduce Deep Forcing, which consists of two training-free mechanisms that address this without any fine-tuning. Specifically, 1) Deep Sink dedicates half of the sliding window to persistent sink tokens and re-aligns their temporal RoPE phase to the current timeline, stabilizing global context during long rollouts. 2) Participative Compression performs importance-aware KV cache pruning that preserves only tokens actively participating in recent attention while safely discarding redundant and degraded history, minimizing error accumulation under out-of-distribution length generation. Together, these components enable over 12x extrapolation (e.g. 5s-trained to 60s+ generation) with better imaging quality than LongLive, better aesthetic quality than RollingForcing, almost maintaining overall consistency, and substantial gains in dynamic degree, all while maintaining real-time generation. Our results demonstrate that training-free KV-cache management can match or exceed training-based approaches for autoregressively streaming long-video generation.