HiAR: Эффективная авторегрессионная генерация длинных видео посредством иерархического шумоподавления

Аннотация

Авторегрессионная (AR) диффузия предлагает перспективную основу для генерации видео теоретически бесконечной длины. Однако ключевой проблемой является сохранение временной непрерывности при предотвращении прогрессирующего снижения качества, вызванного накоплением ошибок. Для обеспечения непрерывности существующие методы обычно используют в качестве контекста сильно очищенные от шума кадры; однако эта практика распространяет ошибки предсказания с высокой уверенностью, тем самым усугубляя деградацию. В данной статье мы утверждаем, что использование абсолютно чистого контекста не является необходимым. Вдохновляясь двунаправленными диффузионными моделями, которые удаляют шум с кадров на общем уровне зашумленности, сохраняя при этом согласованность, мы предполагаем, что использование контекста с тем же уровнем шума, что и у текущего блока, обеспечивает достаточный сигнал для временной согласованности, одновременно эффективно смягчая распространение ошибок. Основываясь на этом инсайте, мы предлагаем HiAR — иерархическую фреймворк дениойзинга, который меняет традиционный порядок генерации: вместо последовательного завершения каждого блока он выполняет причинную генерацию по всем блокам на каждом шаге дениойзинга, так что каждый блок всегда обусловлен контекстом с тем же уровнем шума. Такая иерархия естественным образом допускает конвейерный параллельный вывод, что дает ускорение в 1.8 раза в реальном времени в нашей 4-шаговой конфигурации. Мы также наблюдаем, что самодистилляция (self-rollout distillation) в этой парадигме усиливает присущий режим-ориентированной обратной KL-цели ярлык для сцен с низкой динамикой движения. Для противодействия этому мы вводим регуляризатор на основе прямого KL-расхождения в режиме двунаправленного внимания, который сохраняет разнообразие движений для причинного вывода, не interfering с loss-функцией дистилляции. На бенчмарке VBench (генерация 20с) HiAR демонстрирует наивысший общий балл и наименьший временной дрейф среди всех сравниваемых методов.

English

Autoregressive (AR) diffusion offers a promising framework for generating videos of theoretically infinite length. However, a major challenge is maintaining temporal continuity while preventing the progressive quality degradation caused by error accumulation. To ensure continuity, existing methods typically condition on highly denoised contexts; yet, this practice propagates prediction errors with high certainty, thereby exacerbating degradation. In this paper, we argue that a highly clean context is unnecessary. Drawing inspiration from bidirectional diffusion models, which denoise frames at a shared noise level while maintaining coherence, we propose that conditioning on context at the same noise level as the current block provides sufficient signal for temporal consistency while effectively mitigating error propagation. Building on this insight, we propose HiAR, a hierarchical denoising framework that reverses the conventional generation order: instead of completing each block sequentially, it performs causal generation across all blocks at every denoising step, so that each block is always conditioned on context at the same noise level. This hierarchy naturally admits pipelined parallel inference, yielding a 1.8 wall-clock speedup in our 4-step setting. We further observe that self-rollout distillation under this paradigm amplifies a low-motion shortcut inherent to the mode-seeking reverse-KL objective. To counteract this, we introduce a forward-KL regulariser in bidirectional-attention mode, which preserves motion diversity for causal inference without interfering with the distillation loss. On VBench (20s generation), HiAR achieves the best overall score and the lowest temporal drift among all compared methods.

HiAR: Эффективная авторегрессионная генерация длинных видео посредством иерархического шумоподавления

HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

Аннотация

Support