PackForcing: Kurzvideotraining genügt für Langvideosampling und Inferenz mit langem Kontext

Zusammenfassung

Autoregressive Videodiffusionsmodelle haben bemerkenswerte Fortschritte gezeigt, sind jedoch nach wie vor durch unhandliches lineares KV-Cache-Wachstum, zeitliche Wiederholungen und sich aufschaukelnde Fehler bei der Langzeitvideogenerierung eingeschränkt. Um diese Herausforderungen zu bewältigen, stellen wir PackForcing vor, einen einheitlichen Rahmen, der den Generierungsverlauf effizient durch eine neuartige Drei-Partitionen-KV-Cache-Strategie verwaltet. Konkret kategorisieren wir den historischen Kontext in drei verschiedene Typen: (1) Sink-Tokens, die frühe Ankerframes in voller Auflösung erhalten, um die globale Semantik beizubehalten; (2) Mid-Tokens, die eine massive raumzeitliche Komprimierung (32-fache Tokenreduzierung) über ein duales Netzwerk erreichen, das progressive 3D-Faltungen mit einer niedrigauflösenden VAE-Neucodierung fusioniert; und (3) Recent-Tokens, die in voller Auflösung belassen werden, um die lokale zeitliche Kohärenz zu gewährleisten. Um den Speicherbedarf strikt zu begrenzen, ohne die Qualität zu beeinträchtigen, führen wir einen dynamischen Top-k-Kontextauswahlmechanismus für die Mid-Tokens ein, gekoppelt mit einer kontinuierlichen Temporal-RoPE-Anpassung, die Positionslücken durch verworfene Token nahtlos und mit vernachlässigbarem Overhead neu ausrichtet. Durch diese prinzipielle hierarchische Kontextkompression kann PackForcing kohärente 2-minütige 832x480-Videos mit 16 FPS auf einer einzelnen H200-GPU generieren. Es erreicht einen begrenzten KV-Cache von nur 4 GB und ermöglicht eine bemerkenswerte 24-fache zeitliche Extrapolation (5s bis 120s), die effektiv zero-shot oder trainiert mit nur 5-Sekunden-Clips funktioniert. Umfangreiche Ergebnisse auf VBench demonstrieren state-of-the-art zeitliche Konsistenz (26.07) und Dynamikgrad (56.25) und belegen, dass Kurzvideo-Überwachung für hochwertige Langzeitvideosynthese ausreicht. https://github.com/ShandaAI/PackForcing

English

Autoregressive video diffusion models have demonstrated remarkable progress, yet they remain bottlenecked by intractable linear KV-cache growth, temporal repetition, and compounding errors during long-video generation. To address these challenges, we present PackForcing, a unified framework that efficiently manages the generation history through a novel three-partition KV-cache strategy. Specifically, we categorize the historical context into three distinct types: (1) Sink tokens, which preserve early anchor frames at full resolution to maintain global semantics; (2) Mid tokens, which achieve a massive spatiotemporal compression (32x token reduction) via a dual-branch network fusing progressive 3D convolutions with low-resolution VAE re-encoding; and (3) Recent tokens, kept at full resolution to ensure local temporal coherence. To strictly bound the memory footprint without sacrificing quality, we introduce a dynamic top-k context selection mechanism for the mid tokens, coupled with a continuous Temporal RoPE Adjustment that seamlessly re-aligns position gaps caused by dropped tokens with negligible overhead. Empowered by this principled hierarchical context compression, PackForcing can generate coherent 2-minute, 832x480 videos at 16 FPS on a single H200 GPU. It achieves a bounded KV cache of just 4 GB and enables a remarkable 24x temporal extrapolation (5s to 120s), operating effectively either zero-shot or trained on merely 5-second clips. Extensive results on VBench demonstrate state-of-the-art temporal consistency (26.07) and dynamic degree (56.25), proving that short-video supervision is sufficient for high-quality, long-video synthesis. https://github.com/ShandaAI/PackForcing

PackForcing: Kurzvideotraining genügt für Langvideosampling und Inferenz mit langem Kontext

PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

Zusammenfassung

Support