PackForcing: O Treinamento com Vídeos Curtos é Suficiente para Amostragem de Vídeos Longos e Inferência de Contexto Extenso

Resumo

Os modelos de difusão de vídeo autoregressivos têm demonstrado progresso notável, mas continuam limitados pelo crescimento intratável do cache KV linear, pela repetição temporal e por erros cumulativos durante a geração de vídeos longos. Para enfrentar esses desafios, apresentamos o PackForcing, uma estrutura unificada que gerencia eficientemente o histórico de geração através de uma nova estratégia de cache KV com três partições. Especificamente, categorizamos o contexto histórico em três tipos distintos: (1) Tokens âncora, que preservam os quadros iniciais de referência em resolução total para manter a semântica global; (2) Tokens intermediários, que alcançam uma compressão espaço-temporal massiva (redução de 32x em tokens) através de uma rede de duplo ramo que funde convoluções 3D progressivas com recodificação VAE de baixa resolução; e (3) Tokens recentes, mantidos em resolução total para garantir coerência temporal local. Para limitar estritamente a pegada de memória sem sacrificar a qualidade, introduzimos um mecanismo de seleção dinâmica de contexto top-k para os tokens intermediários, aliado a um Ajuste Contínuo de RoPE Temporal que realinha perfeitamente as lacunas posicionais causadas pela descarte de tokens com sobrecarga insignificante. Potencializado por esta compressão hierárquica de contexto fundamentada, o PackForcing pode gerar vídeos coerentes de 2 minutos em 832x480 a 16 FPS em uma única GPU H200. Alcança um cache KV limitado de apenas 4 GB e permite uma notável extrapolação temporal de 24x (de 5s para 120s), operando eficazmente de forma zero-shot ou treinado com clipes de apenas 5 segundos. Resultados extensivos no VBench demonstram consistência temporal (26.07) e grau dinâmico (56.25) state-of-the-art, provando que a supervisão com vídeos curtos é suficiente para síntese de vídeos longos de alta qualidade. https://github.com/ShandaAI/PackForcing

English

Autoregressive video diffusion models have demonstrated remarkable progress, yet they remain bottlenecked by intractable linear KV-cache growth, temporal repetition, and compounding errors during long-video generation. To address these challenges, we present PackForcing, a unified framework that efficiently manages the generation history through a novel three-partition KV-cache strategy. Specifically, we categorize the historical context into three distinct types: (1) Sink tokens, which preserve early anchor frames at full resolution to maintain global semantics; (2) Mid tokens, which achieve a massive spatiotemporal compression (32x token reduction) via a dual-branch network fusing progressive 3D convolutions with low-resolution VAE re-encoding; and (3) Recent tokens, kept at full resolution to ensure local temporal coherence. To strictly bound the memory footprint without sacrificing quality, we introduce a dynamic top-k context selection mechanism for the mid tokens, coupled with a continuous Temporal RoPE Adjustment that seamlessly re-aligns position gaps caused by dropped tokens with negligible overhead. Empowered by this principled hierarchical context compression, PackForcing can generate coherent 2-minute, 832x480 videos at 16 FPS on a single H200 GPU. It achieves a bounded KV cache of just 4 GB and enables a remarkable 24x temporal extrapolation (5s to 120s), operating effectively either zero-shot or trained on merely 5-second clips. Extensive results on VBench demonstrate state-of-the-art temporal consistency (26.07) and dynamic degree (56.25), proving that short-video supervision is sufficient for high-quality, long-video synthesis. https://github.com/ShandaAI/PackForcing