PackForcing: L'addestramento su video brevi è sufficiente per il campionamento di video lunghi e l'inferenza su contesti estesi

Abstract

I modelli di diffusione video autoregressivi hanno dimostrato progressi notevoli, ma rimangono limitati dalla crescita intrattabile della cache KV lineare, dalla ripetizione temporale e dagli errori cumulativi durante la generazione di video lunghi. Per affrontare queste sfide, presentiamo PackForcing, un framework unificato che gestisce efficientemente la cronologia di generazione attraverso una nuova strategia di cache KV a tre partizioni. Nello specifico, categorizziamo il contesto storico in tre tipi distinti: (1) Token Sink, che preservano i frame di ancoraggio iniziali a piena risoluzione per mantenere la semantica globale; (2) Token Mid, che raggiungono una compressione spaziotemporale massiva (riduzione di 32x dei token) tramite una rete a doppio ramo che fonde convoluzioni 3D progressive con una ricodifica VAE a bassa risoluzione; e (3) Token Recenti, mantenuti a piena risoluzione per garantire la coerenza temporale locale. Per delimitare rigorosamente l'occupazione di memoria senza sacrificare la qualità, introduciamo un meccanismo di selezione del contesto top-k dinamico per i token mid, abbinato a un continuo Adeguamento Temporale RoPE che riallinea perfettamente i gap posizionali causati dai token eliminati con un overhead trascurabile. Grazie a questa compressione contestuale gerarchica e principiata, PackForcing può generare video coerenti di 2 minuti a 832x480 e 16 FPS su una singola GPU H200. Raggiunge una cache KV limitata a soli 4 GB e abilita una notevole estrapolazione temporale 24x (da 5s a 120s), operando efficacemente in modalità zero-shot o addestrandosi su clip di soli 5 secondi. Risultati estensivi su VBench dimostrano una consistenza temporale (26.07) e un grado dinamico (56.25) all'avanguardia, provando che la supervisione su video brevi è sufficiente per una sintesi di video lunghi di alta qualità. https://github.com/ShandaAI/PackForcing

English

Autoregressive video diffusion models have demonstrated remarkable progress, yet they remain bottlenecked by intractable linear KV-cache growth, temporal repetition, and compounding errors during long-video generation. To address these challenges, we present PackForcing, a unified framework that efficiently manages the generation history through a novel three-partition KV-cache strategy. Specifically, we categorize the historical context into three distinct types: (1) Sink tokens, which preserve early anchor frames at full resolution to maintain global semantics; (2) Mid tokens, which achieve a massive spatiotemporal compression (32x token reduction) via a dual-branch network fusing progressive 3D convolutions with low-resolution VAE re-encoding; and (3) Recent tokens, kept at full resolution to ensure local temporal coherence. To strictly bound the memory footprint without sacrificing quality, we introduce a dynamic top-k context selection mechanism for the mid tokens, coupled with a continuous Temporal RoPE Adjustment that seamlessly re-aligns position gaps caused by dropped tokens with negligible overhead. Empowered by this principled hierarchical context compression, PackForcing can generate coherent 2-minute, 832x480 videos at 16 FPS on a single H200 GPU. It achieves a bounded KV cache of just 4 GB and enables a remarkable 24x temporal extrapolation (5s to 120s), operating effectively either zero-shot or trained on merely 5-second clips. Extensive results on VBench demonstrate state-of-the-art temporal consistency (26.07) and dynamic degree (56.25), proving that short-video supervision is sufficient for high-quality, long-video synthesis. https://github.com/ShandaAI/PackForcing

PackForcing: L'addestramento su video brevi è sufficiente per il campionamento di video lunghi e l'inferenza su contesti estesi

PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

Abstract

Support