HiAR: Effiziente autoregressive Langvideogenerierung durch hierarchische Entrauschung

Zusammenfassung

Autoregressive (AR) Diffusion bietet einen vielversprechenden Rahmen zur Erzeugung von Videos theoretisch unendlicher Länge. Eine große Herausforderung besteht jedoch darin, die zeitliche Kontinuität aufrechtzuerhalten und gleichzeitig den fortschreitenden Qualitätsverlust durch Fehlerakkumulation zu verhindern. Um Kontinuität zu gewährleisten, konditionieren bestehende Methoden typischerweise auf stark entrauschte Kontexte; diese Praxis überträgt jedoch Vorhersagefehler mit hoher Sicherheit und verschärft so die Verschlechterung. In diesem Beitrag argumentieren wir, dass ein sehr sauberer Kontext unnötig ist. Inspiriert von bidirektionalen Diffusionsmodellen, die Bilder auf einem gemeinsamen Rauschpegel entrauschen und dabei Kohärenz bewahren, schlagen wir vor, dass eine Konditionierung auf einen Kontext mit demselben Rauschpegel wie der aktuelle Block ausreichend Signal für zeitliche Konsistenz liefert und gleichzeitig die Fehlerfortpflanzung wirksam mindert. Aufbauend auf dieser Erkenntnis schlagen wir HiAR vor, ein hierarchisches Entrauschungsframework, das die konventionelle Generierungsreihenfolge umkehrt: Anstatt jeden Block sequenziell abzuschließen, führt es bei jedem Entrauschungsschritt eine kausale Generierung über alle Blöcke hinweg durch, sodass jeder Block stets auf einen Kontext mit demselben Rauschpegel konditioniert ist. Diese Hierarchie ermöglicht natürlich eine gepipelinte parallele Inferenz, was in unserem 4-Schritt-Setup eine 1,8-fache Beschleunigung der Echtzeit ergibt. Wir beobachten weiterhin, dass Self-Rollout-Distillation unter diesem Paradigma einen inherenten Low-Motion-Shortcut des modus-suchenden Reverse-KL-Ziels verstärkt. Um dem entgegenzuwirken, führen wir einen Forward-KL-Regularisierer im Bidirectional-Attention-Modus ein, der die Bewegungsvielfalt für die kausale Inferenz erhält, ohne die Distillationsverluste zu beeinträchtigen. Auf VBench (20s Generierung) erzielt HiAR die beste Gesamtpunktzahl und die geringste zeitliche Drift unter allen verglichenen Methoden.

English

Autoregressive (AR) diffusion offers a promising framework for generating videos of theoretically infinite length. However, a major challenge is maintaining temporal continuity while preventing the progressive quality degradation caused by error accumulation. To ensure continuity, existing methods typically condition on highly denoised contexts; yet, this practice propagates prediction errors with high certainty, thereby exacerbating degradation. In this paper, we argue that a highly clean context is unnecessary. Drawing inspiration from bidirectional diffusion models, which denoise frames at a shared noise level while maintaining coherence, we propose that conditioning on context at the same noise level as the current block provides sufficient signal for temporal consistency while effectively mitigating error propagation. Building on this insight, we propose HiAR, a hierarchical denoising framework that reverses the conventional generation order: instead of completing each block sequentially, it performs causal generation across all blocks at every denoising step, so that each block is always conditioned on context at the same noise level. This hierarchy naturally admits pipelined parallel inference, yielding a 1.8 wall-clock speedup in our 4-step setting. We further observe that self-rollout distillation under this paradigm amplifies a low-motion shortcut inherent to the mode-seeking reverse-KL objective. To counteract this, we introduce a forward-KL regulariser in bidirectional-attention mode, which preserves motion diversity for causal inference without interfering with the distillation loss. On VBench (20s generation), HiAR achieves the best overall score and the lowest temporal drift among all compared methods.

HiAR: Effiziente autoregressive Langvideogenerierung durch hierarchische Entrauschung

HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

Zusammenfassung

Support