ChatPaper.aiChatPaper

PackForcing: Короткое видеообучение достаточно для сэмплирования длинных видео и логического вывода в длинном контексте

PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

March 26, 2026
Авторы: Xiaofeng Mao, Shaohao Rui, Kaining Ying, Bo Zheng, Chuanhao Li, Mingmin Chi, Kaipeng Zhang
cs.AI

Аннотация

Авторегрессионные модели диффузии видео демонстрируют значительный прогресс, однако их развитие сдерживается неразрешимым линейным ростом KV-кэша, временными повторами и накапливающимися ошибками при генерации длинных видео. Для решения этих проблем мы представляем PackForcing — унифицированную структуру, которая эффективно управляет историей генерации с помощью новой стратегии KV-кэша с тремя разделами. В частности, мы категоризируем исторический контекст на три различных типа: (1) Синк-токены, которые сохраняют ранние опорные кадры в полном разрешении для поддержания глобальной семантики; (2) Мид-токены, которые достигают значительного пространственно-временного сжатия (сокращение токенов в 32 раза) с помощью двухветвевой сети, объединяющей прогрессивные 3D-свертки с перекодированием VAE в низком разрешении; и (3) Рецент-токены, сохраняемые в полном разрешении для обеспечения локальной временной согласованности. Чтобы строго ограничить объем используемой памяти без потери качества, мы вводим механизм динамического выбора контекста top-k для мид-токенов в сочетании с непрерывной временной коррекцией RoPE, которая бесшовно перевыравнивает позиционные разрывы, вызванные удаленными токенами, с пренебрежимо малыми накладными расходами. Благодаря такому принципиальному иерархическому сжатию контекста, PackForcing способен генерировать согласованные 2-минутные видео с разрешением 832x480 и частотой 16 кадров/с на одном GPU H200. Он обеспечивает ограниченный размер KV-кэша всего в 4 ГБ и позволяет достичь впечатляющей 24-кратной временной экстраполяции (от 5 до 120 секунд), эффективно работая как в режиме zero-shot, так и после обучения на клипах длиной всего 5 секунд. Обширные результаты на VBench демонстрируют передовые показатели временной согласованности (26.07) и степени динамики (56.25), доказывая, что для высококачественного синтеза длинных видео достаточно обучения на коротких видео. https://github.com/ShandaAI/PackForcing
English
Autoregressive video diffusion models have demonstrated remarkable progress, yet they remain bottlenecked by intractable linear KV-cache growth, temporal repetition, and compounding errors during long-video generation. To address these challenges, we present PackForcing, a unified framework that efficiently manages the generation history through a novel three-partition KV-cache strategy. Specifically, we categorize the historical context into three distinct types: (1) Sink tokens, which preserve early anchor frames at full resolution to maintain global semantics; (2) Mid tokens, which achieve a massive spatiotemporal compression (32x token reduction) via a dual-branch network fusing progressive 3D convolutions with low-resolution VAE re-encoding; and (3) Recent tokens, kept at full resolution to ensure local temporal coherence. To strictly bound the memory footprint without sacrificing quality, we introduce a dynamic top-k context selection mechanism for the mid tokens, coupled with a continuous Temporal RoPE Adjustment that seamlessly re-aligns position gaps caused by dropped tokens with negligible overhead. Empowered by this principled hierarchical context compression, PackForcing can generate coherent 2-minute, 832x480 videos at 16 FPS on a single H200 GPU. It achieves a bounded KV cache of just 4 GB and enables a remarkable 24x temporal extrapolation (5s to 120s), operating effectively either zero-shot or trained on merely 5-second clips. Extensive results on VBench demonstrate state-of-the-art temporal consistency (26.07) and dynamic degree (56.25), proving that short-video supervision is sufficient for high-quality, long-video synthesis. https://github.com/ShandaAI/PackForcing
PDF381March 31, 2026