PackForcing : L'entraînement sur vidéos courtes suffit pour l'échantillonnage de vidéos longues et l'inférence à contexte étendu

Résumé

Les modèles de diffusion vidéo autorégressifs ont réalisé des progrès remarquables, mais ils restent limités par la croissance intraitable du cache KV linéaire, la répétition temporelle et les erreurs cumulatives lors de la génération de vidéos longues. Pour relever ces défis, nous présentons PackForcing, un cadre unifié qui gère efficacement l'historique de génération grâce à une nouvelle stratégie de cache KV à trois partitions. Plus précisément, nous catégorisons le contexte historique en trois types distincts : (1) les jetons Sink, qui préservent les images d'ancrage initiales en pleine résolution pour maintenir la sémantique globale ; (2) les jetons Mid, qui réalisent une compression spatiotemporelle massive (réduction de 32x des jetons) via un réseau à double branche fusionnant des convolutions 3D progressives avec un ré-encodage VAE basse résolution ; et (3) les jetons Recent, conservés en pleine résolution pour assurer la cohérence temporelle locale. Pour limiter strictement l'empreinte mémoire sans sacrifier la qualité, nous introduisons un mécanisme de sélection contextuelle top-k dynamique pour les jetons Mid, couplé à un Ajustement Temporel RoPE Continu qui réaligne de manière transparente les écarts de position causés par l'abandon de jetons avec une surcharge négligeable. Grâce à cette compression contextuelle hiérarchique et principiée, PackForcing peut générer des vidéos cohérentes de 2 minutes en 832x480 à 16 FPS sur un seul GPU H200. Il atteint un cache KV limité à seulement 4 Go et permet une extrapolation temporelle remarquable de 24x (de 5s à 120s), fonctionnant efficacement en zero-shot ou après entraînement sur de simples clips de 5 secondes. Des résultats approfondis sur VBench démontrent une cohérence temporelle (26,07) et un degré dynamique (56,25) à la pointe de l'état de l'art, prouvant qu'une supervision sur des vidéos courtes suffit pour une synthèse de vidéos longues de haute qualité. https://github.com/ShandaAI/PackForcing

English

Autoregressive video diffusion models have demonstrated remarkable progress, yet they remain bottlenecked by intractable linear KV-cache growth, temporal repetition, and compounding errors during long-video generation. To address these challenges, we present PackForcing, a unified framework that efficiently manages the generation history through a novel three-partition KV-cache strategy. Specifically, we categorize the historical context into three distinct types: (1) Sink tokens, which preserve early anchor frames at full resolution to maintain global semantics; (2) Mid tokens, which achieve a massive spatiotemporal compression (32x token reduction) via a dual-branch network fusing progressive 3D convolutions with low-resolution VAE re-encoding; and (3) Recent tokens, kept at full resolution to ensure local temporal coherence. To strictly bound the memory footprint without sacrificing quality, we introduce a dynamic top-k context selection mechanism for the mid tokens, coupled with a continuous Temporal RoPE Adjustment that seamlessly re-aligns position gaps caused by dropped tokens with negligible overhead. Empowered by this principled hierarchical context compression, PackForcing can generate coherent 2-minute, 832x480 videos at 16 FPS on a single H200 GPU. It achieves a bounded KV cache of just 4 GB and enables a remarkable 24x temporal extrapolation (5s to 120s), operating effectively either zero-shot or trained on merely 5-second clips. Extensive results on VBench demonstrate state-of-the-art temporal consistency (26.07) and dynamic degree (56.25), proving that short-video supervision is sufficient for high-quality, long-video synthesis. https://github.com/ShandaAI/PackForcing

PackForcing : L'entraînement sur vidéos courtes suffit pour l'échantillonnage de vidéos longues et l'inférence à contexte étendu

PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

Résumé

Support