Deep Forcing: Geração de Vídeos Longos Sem Treinamento com Deep Sink e Compressão Participativa

Resumo

Avanços recentes na difusão de vídeo autoregressiva possibilitaram o streaming de frames em tempo real, porém as soluções existentes ainda sofrem com repetição temporal, desvio (drift) e desaceleração de movimento. Descobrimos que a aplicação ingênua de "attention sinks" no estilo StreamingLLM à difusão de vídeo leva à degradação da fidelidade e à estagnação do movimento. Para superar isso, introduzimos o Deep Forcing, que consiste em dois mecanismos *training-free* que abordam esse problema sem qualquer *fine-tuning*. Especificamente, 1) o **Deep Sink** dedica metade da janela deslizante a *tokens* de *sink* persistentes e realinha sua fase temporal do RoPE para a linha do tempo atual, estabilizando o contexto global durante *rollouts* longos. 2) A **Compressão Participativa** realiza uma poda do cache KV baseada em importância, que preserva apenas os *tokens* que participam ativamente na atenção recente, enquanto descarta com segurança o histórico redundante e degradado, minimizando o acúmulo de erro sob geração de comprimento fora da distribuição (*out-of-distribution*). Juntos, esses componentes permitem uma extrapolação superior a 12x (por exemplo, de um modelo treinado para 5s para geração de 60s ou mais) com melhor qualidade de imagem que o LongLive, melhor qualidade estética que o RollingForcing, mantendo quase a consistência geral e ganhos substanciais no grau dinâmico, tudo isso mantendo a geração em tempo real. Nossos resultados demonstram que o gerenciamento do cache KV *training-free* pode igualar ou superar as abordagens baseadas em treinamento para a geração *streaming* de vídeos longos de forma autoregressiva.

English

Recent advances in autoregressive video diffusion have enabled real-time frame streaming, yet existing solutions still suffer from temporal repetition, drift, and motion deceleration. We find that naively applying StreamingLLM-style attention sinks to video diffusion leads to fidelity degradation and motion stagnation. To overcome this, we introduce Deep Forcing, which consists of two training-free mechanisms that address this without any fine-tuning. Specifically, 1) Deep Sink dedicates half of the sliding window to persistent sink tokens and re-aligns their temporal RoPE phase to the current timeline, stabilizing global context during long rollouts. 2) Participative Compression performs importance-aware KV cache pruning that preserves only tokens actively participating in recent attention while safely discarding redundant and degraded history, minimizing error accumulation under out-of-distribution length generation. Together, these components enable over 12x extrapolation (e.g. 5s-trained to 60s+ generation) with better imaging quality than LongLive, better aesthetic quality than RollingForcing, almost maintaining overall consistency, and substantial gains in dynamic degree, all while maintaining real-time generation. Our results demonstrate that training-free KV-cache management can match or exceed training-based approaches for autoregressively streaming long-video generation.

Deep Forcing: Geração de Vídeos Longos Sem Treinamento com Deep Sink e Compressão Participativa

Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression

Resumo

Support