PackForcing: El Entrenamiento con Videos Cortos Basta para el Muestreo de Videos Largos y la Inferencia de Contextos Extendidos

Resumen

Los modelos de difusión de video autoregresivos han demostrado avances notables, pero siguen limitados por el crecimiento intratable de la caché KV lineal, la repetición temporal y los errores acumulativos durante la generación de videos largos. Para abordar estos desafíos, presentamos PackForcing, un marco unificado que gestiona eficientemente el historial de generación mediante una novedosa estrategia de caché KV de tres particiones. Específicamente, categorizamos el contexto histórico en tres tipos distintos: (1) Tokens de anclaje, que preservan los fotogramas de anclaje iniciales a resolución completa para mantener la semántica global; (2) Tokens intermedios, que logran una compresión espacio-temporal masiva (reducción de 32x en tokens) mediante una red de doble rama que fusiona convoluciones 3D progresivas con una nueva codificación VAE de baja resolución; y (3) Tokens recientes, mantenidos a resolución completa para garantizar la coherencia temporal local. Para limitar estrictamente la huella de memoria sin sacrificar la calidad, introducimos un mecanismo de selección de contexto top-k dinámico para los tokens intermedios, junto con un Ajuste Temporal Continuo de RoPE que realinea sin problemas los vacíos posicionales causados por tokens descartados con un overhead insignificante. Potenciado por esta compresión de contexto jerárquica y fundamentada, PackForcing puede generar videos coherentes de 2 minutos a 832x480 y 16 FPS en una sola GPU H200. Logra una caché KV limitada de solo 4 GB y permite una extrapolación temporal notable de 24x (de 5s a 120s), operando efectivamente de forma zero-shot o entrenado con clips de apenas 5 segundos. Resultados exhaustivos en VBench demuestran una consistencia temporal (26.07) y grado dinámico (56.25) de vanguardia, probando que la supervisión con videos cortos es suficiente para una síntesis de video largo de alta calidad. https://github.com/ShandaAI/PackForcing

English

Autoregressive video diffusion models have demonstrated remarkable progress, yet they remain bottlenecked by intractable linear KV-cache growth, temporal repetition, and compounding errors during long-video generation. To address these challenges, we present PackForcing, a unified framework that efficiently manages the generation history through a novel three-partition KV-cache strategy. Specifically, we categorize the historical context into three distinct types: (1) Sink tokens, which preserve early anchor frames at full resolution to maintain global semantics; (2) Mid tokens, which achieve a massive spatiotemporal compression (32x token reduction) via a dual-branch network fusing progressive 3D convolutions with low-resolution VAE re-encoding; and (3) Recent tokens, kept at full resolution to ensure local temporal coherence. To strictly bound the memory footprint without sacrificing quality, we introduce a dynamic top-k context selection mechanism for the mid tokens, coupled with a continuous Temporal RoPE Adjustment that seamlessly re-aligns position gaps caused by dropped tokens with negligible overhead. Empowered by this principled hierarchical context compression, PackForcing can generate coherent 2-minute, 832x480 videos at 16 FPS on a single H200 GPU. It achieves a bounded KV cache of just 4 GB and enables a remarkable 24x temporal extrapolation (5s to 120s), operating effectively either zero-shot or trained on merely 5-second clips. Extensive results on VBench demonstrate state-of-the-art temporal consistency (26.07) and dynamic degree (56.25), proving that short-video supervision is sufficient for high-quality, long-video synthesis. https://github.com/ShandaAI/PackForcing

PackForcing: El Entrenamiento con Videos Cortos Basta para el Muestreo de Videos Largos y la Inferencia de Contextos Extendidos

PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

Resumen

Support