PackForcing: Короткое видеообучение достаточно для сэмплирования длинных видео и логического вывода в длинном контексте

Аннотация

Авторегрессионные модели диффузии видео демонстрируют значительный прогресс, однако их развитие сдерживается неразрешимым линейным ростом KV-кэша, временными повторами и накапливающимися ошибками при генерации длинных видео. Для решения этих проблем мы представляем PackForcing — унифицированную структуру, которая эффективно управляет историей генерации с помощью новой стратегии KV-кэша с тремя разделами. В частности, мы категоризируем исторический контекст на три различных типа: (1) Синк-токены, которые сохраняют ранние опорные кадры в полном разрешении для поддержания глобальной семантики; (2) Мид-токены, которые достигают значительного пространственно-временного сжатия (сокращение токенов в 32 раза) с помощью двухветвевой сети, объединяющей прогрессивные 3D-свертки с перекодированием VAE в низком разрешении; и (3) Рецент-токены, сохраняемые в полном разрешении для обеспечения локальной временной согласованности. Чтобы строго ограничить объем используемой памяти без потери качества, мы вводим механизм динамического выбора контекста top-k для мид-токенов в сочетании с непрерывной временной коррекцией RoPE, которая бесшовно перевыравнивает позиционные разрывы, вызванные удаленными токенами, с пренебрежимо малыми накладными расходами. Благодаря такому принципиальному иерархическому сжатию контекста, PackForcing способен генерировать согласованные 2-минутные видео с разрешением 832x480 и частотой 16 кадров/с на одном GPU H200. Он обеспечивает ограниченный размер KV-кэша всего в 4 ГБ и позволяет достичь впечатляющей 24-кратной временной экстраполяции (от 5 до 120 секунд), эффективно работая как в режиме zero-shot, так и после обучения на клипах длиной всего 5 секунд. Обширные результаты на VBench демонстрируют передовые показатели временной согласованности (26.07) и степени динамики (56.25), доказывая, что для высококачественного синтеза длинных видео достаточно обучения на коротких видео. https://github.com/ShandaAI/PackForcing

English

Autoregressive video diffusion models have demonstrated remarkable progress, yet they remain bottlenecked by intractable linear KV-cache growth, temporal repetition, and compounding errors during long-video generation. To address these challenges, we present PackForcing, a unified framework that efficiently manages the generation history through a novel three-partition KV-cache strategy. Specifically, we categorize the historical context into three distinct types: (1) Sink tokens, which preserve early anchor frames at full resolution to maintain global semantics; (2) Mid tokens, which achieve a massive spatiotemporal compression (32x token reduction) via a dual-branch network fusing progressive 3D convolutions with low-resolution VAE re-encoding; and (3) Recent tokens, kept at full resolution to ensure local temporal coherence. To strictly bound the memory footprint without sacrificing quality, we introduce a dynamic top-k context selection mechanism for the mid tokens, coupled with a continuous Temporal RoPE Adjustment that seamlessly re-aligns position gaps caused by dropped tokens with negligible overhead. Empowered by this principled hierarchical context compression, PackForcing can generate coherent 2-minute, 832x480 videos at 16 FPS on a single H200 GPU. It achieves a bounded KV cache of just 4 GB and enables a remarkable 24x temporal extrapolation (5s to 120s), operating effectively either zero-shot or trained on merely 5-second clips. Extensive results on VBench demonstrate state-of-the-art temporal consistency (26.07) and dynamic degree (56.25), proving that short-video supervision is sufficient for high-quality, long-video synthesis. https://github.com/ShandaAI/PackForcing

PackForcing: Короткое видеообучение достаточно для сэмплирования длинных видео и логического вывода в длинном контексте

PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

Аннотация

Support