ChatPaper.aiChatPaper

PackForcing: Kurzvideotraining genügt für Langvideosampling und Inferenz mit langem Kontext

PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

March 26, 2026
Autoren: Xiaofeng Mao, Shaohao Rui, Kaining Ying, Bo Zheng, Chuanhao Li, Mingmin Chi, Kaipeng Zhang
cs.AI

Zusammenfassung

Autoregressive Videodiffusionsmodelle haben bemerkenswerte Fortschritte gezeigt, sind jedoch nach wie vor durch unhandliches lineares KV-Cache-Wachstum, zeitliche Wiederholungen und sich aufschaukelnde Fehler bei der Langzeitvideogenerierung eingeschränkt. Um diese Herausforderungen zu bewältigen, stellen wir PackForcing vor, einen einheitlichen Rahmen, der den Generierungsverlauf effizient durch eine neuartige Drei-Partitionen-KV-Cache-Strategie verwaltet. Konkret kategorisieren wir den historischen Kontext in drei verschiedene Typen: (1) Sink-Tokens, die frühe Ankerframes in voller Auflösung erhalten, um die globale Semantik beizubehalten; (2) Mid-Tokens, die eine massive raumzeitliche Komprimierung (32-fache Tokenreduzierung) über ein duales Netzwerk erreichen, das progressive 3D-Faltungen mit einer niedrigauflösenden VAE-Neucodierung fusioniert; und (3) Recent-Tokens, die in voller Auflösung belassen werden, um die lokale zeitliche Kohärenz zu gewährleisten. Um den Speicherbedarf strikt zu begrenzen, ohne die Qualität zu beeinträchtigen, führen wir einen dynamischen Top-k-Kontextauswahlmechanismus für die Mid-Tokens ein, gekoppelt mit einer kontinuierlichen Temporal-RoPE-Anpassung, die Positionslücken durch verworfene Token nahtlos und mit vernachlässigbarem Overhead neu ausrichtet. Durch diese prinzipielle hierarchische Kontextkompression kann PackForcing kohärente 2-minütige 832x480-Videos mit 16 FPS auf einer einzelnen H200-GPU generieren. Es erreicht einen begrenzten KV-Cache von nur 4 GB und ermöglicht eine bemerkenswerte 24-fache zeitliche Extrapolation (5s bis 120s), die effektiv zero-shot oder trainiert mit nur 5-Sekunden-Clips funktioniert. Umfangreiche Ergebnisse auf VBench demonstrieren state-of-the-art zeitliche Konsistenz (26.07) und Dynamikgrad (56.25) und belegen, dass Kurzvideo-Überwachung für hochwertige Langzeitvideosynthese ausreicht. https://github.com/ShandaAI/PackForcing
English
Autoregressive video diffusion models have demonstrated remarkable progress, yet they remain bottlenecked by intractable linear KV-cache growth, temporal repetition, and compounding errors during long-video generation. To address these challenges, we present PackForcing, a unified framework that efficiently manages the generation history through a novel three-partition KV-cache strategy. Specifically, we categorize the historical context into three distinct types: (1) Sink tokens, which preserve early anchor frames at full resolution to maintain global semantics; (2) Mid tokens, which achieve a massive spatiotemporal compression (32x token reduction) via a dual-branch network fusing progressive 3D convolutions with low-resolution VAE re-encoding; and (3) Recent tokens, kept at full resolution to ensure local temporal coherence. To strictly bound the memory footprint without sacrificing quality, we introduce a dynamic top-k context selection mechanism for the mid tokens, coupled with a continuous Temporal RoPE Adjustment that seamlessly re-aligns position gaps caused by dropped tokens with negligible overhead. Empowered by this principled hierarchical context compression, PackForcing can generate coherent 2-minute, 832x480 videos at 16 FPS on a single H200 GPU. It achieves a bounded KV cache of just 4 GB and enables a remarkable 24x temporal extrapolation (5s to 120s), operating effectively either zero-shot or trained on merely 5-second clips. Extensive results on VBench demonstrate state-of-the-art temporal consistency (26.07) and dynamic degree (56.25), proving that short-video supervision is sufficient for high-quality, long-video synthesis. https://github.com/ShandaAI/PackForcing
PDF381March 31, 2026