ChatPaper.aiChatPaper

PackForcing: O Treinamento com Vídeos Curtos é Suficiente para Amostragem de Vídeos Longos e Inferência de Contexto Extenso

PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

March 26, 2026
Autores: Xiaofeng Mao, Shaohao Rui, Kaining Ying, Bo Zheng, Chuanhao Li, Mingmin Chi, Kaipeng Zhang
cs.AI

Resumo

Os modelos de difusão de vídeo autoregressivos têm demonstrado progresso notável, mas continuam limitados pelo crescimento intratável do cache KV linear, pela repetição temporal e por erros cumulativos durante a geração de vídeos longos. Para enfrentar esses desafios, apresentamos o PackForcing, uma estrutura unificada que gerencia eficientemente o histórico de geração através de uma nova estratégia de cache KV com três partições. Especificamente, categorizamos o contexto histórico em três tipos distintos: (1) Tokens âncora, que preservam os quadros iniciais de referência em resolução total para manter a semântica global; (2) Tokens intermediários, que alcançam uma compressão espaço-temporal massiva (redução de 32x em tokens) através de uma rede de duplo ramo que funde convoluções 3D progressivas com recodificação VAE de baixa resolução; e (3) Tokens recentes, mantidos em resolução total para garantir coerência temporal local. Para limitar estritamente a pegada de memória sem sacrificar a qualidade, introduzimos um mecanismo de seleção dinâmica de contexto top-k para os tokens intermediários, aliado a um Ajuste Contínuo de RoPE Temporal que realinha perfeitamente as lacunas posicionais causadas pela descarte de tokens com sobrecarga insignificante. Potencializado por esta compressão hierárquica de contexto fundamentada, o PackForcing pode gerar vídeos coerentes de 2 minutos em 832x480 a 16 FPS em uma única GPU H200. Alcança um cache KV limitado de apenas 4 GB e permite uma notável extrapolação temporal de 24x (de 5s para 120s), operando eficazmente de forma zero-shot ou treinado com clipes de apenas 5 segundos. Resultados extensivos no VBench demonstram consistência temporal (26.07) e grau dinâmico (56.25) state-of-the-art, provando que a supervisão com vídeos curtos é suficiente para síntese de vídeos longos de alta qualidade. https://github.com/ShandaAI/PackForcing
English
Autoregressive video diffusion models have demonstrated remarkable progress, yet they remain bottlenecked by intractable linear KV-cache growth, temporal repetition, and compounding errors during long-video generation. To address these challenges, we present PackForcing, a unified framework that efficiently manages the generation history through a novel three-partition KV-cache strategy. Specifically, we categorize the historical context into three distinct types: (1) Sink tokens, which preserve early anchor frames at full resolution to maintain global semantics; (2) Mid tokens, which achieve a massive spatiotemporal compression (32x token reduction) via a dual-branch network fusing progressive 3D convolutions with low-resolution VAE re-encoding; and (3) Recent tokens, kept at full resolution to ensure local temporal coherence. To strictly bound the memory footprint without sacrificing quality, we introduce a dynamic top-k context selection mechanism for the mid tokens, coupled with a continuous Temporal RoPE Adjustment that seamlessly re-aligns position gaps caused by dropped tokens with negligible overhead. Empowered by this principled hierarchical context compression, PackForcing can generate coherent 2-minute, 832x480 videos at 16 FPS on a single H200 GPU. It achieves a bounded KV cache of just 4 GB and enables a remarkable 24x temporal extrapolation (5s to 120s), operating effectively either zero-shot or trained on merely 5-second clips. Extensive results on VBench demonstrate state-of-the-art temporal consistency (26.07) and dynamic degree (56.25), proving that short-video supervision is sufficient for high-quality, long-video synthesis. https://github.com/ShandaAI/PackForcing