HiAR : Génération efficace de vidéos longues autorégressives via un débruitage hiérarchique

Résumé

La diffusion autorégressive (AR) offre un cadre prometteur pour générer des vidéos de longueur théoriquement infinie. Cependant, un défi majeur consiste à maintenir la continuité temporelle tout en empêchant la dégradation progressive de la qualité causée par l'accumulation d'erreurs. Pour assurer la continuité, les méthodes existantes se conditionnent généralement sur des contextes fortement débruités ; pourtant, cette pratique propage les erreurs de prédiction avec une grande certitude, aggravant ainsi la dégradation. Dans cet article, nous soutenons qu'un contexte très propre est inutile. Nous nous inspirons des modèles de diffusion bidirectionnels, qui débruisent les images à un niveau de bruit partagé tout en maintenant la cohérence, pour proposer que le conditionnement sur un contexte au même niveau de bruit que le bloc actuel fournit un signal suffisant pour la cohérence temporelle tout en atténuant efficacement la propagation des erreurs. Sur la base de cette idée, nous proposons HiAR, un framework de débruitage hiérarchique qui inverse l'ordre de génération conventionnel : au lieu de compléter chaque bloc séquentiellement, il effectue une génération causale sur tous les blocs à chaque étape de débruitage, de sorte que chaque bloc est toujours conditionné sur un contexte au même niveau de bruit. Cette hiérarchie permet naturellement une inférence parallèle en pipeline, produisant une accélération en temps réel d'un facteur de 1,8 dans notre configuration à 4 étapes. Nous observons en outre que l'auto-distillation par déroulement (self-rollout) dans ce paradigme amplifie un raccourci de faible mouvement inhérent à l'objectif de KL inverse favorisant le mode. Pour contrer cela, nous introduisons un régulariseur de KL direct en mode attention bidirectionnelle, qui préserve la diversité des mouvements pour l'inférence causale sans interférer avec la perte de distillation. Sur VBench (génération de 20s), HiAR obtient le score global le plus élevé et la dérive temporelle la plus faible parmi toutes les méthodes comparées.

English

Autoregressive (AR) diffusion offers a promising framework for generating videos of theoretically infinite length. However, a major challenge is maintaining temporal continuity while preventing the progressive quality degradation caused by error accumulation. To ensure continuity, existing methods typically condition on highly denoised contexts; yet, this practice propagates prediction errors with high certainty, thereby exacerbating degradation. In this paper, we argue that a highly clean context is unnecessary. Drawing inspiration from bidirectional diffusion models, which denoise frames at a shared noise level while maintaining coherence, we propose that conditioning on context at the same noise level as the current block provides sufficient signal for temporal consistency while effectively mitigating error propagation. Building on this insight, we propose HiAR, a hierarchical denoising framework that reverses the conventional generation order: instead of completing each block sequentially, it performs causal generation across all blocks at every denoising step, so that each block is always conditioned on context at the same noise level. This hierarchy naturally admits pipelined parallel inference, yielding a 1.8 wall-clock speedup in our 4-step setting. We further observe that self-rollout distillation under this paradigm amplifies a low-motion shortcut inherent to the mode-seeking reverse-KL objective. To counteract this, we introduce a forward-KL regulariser in bidirectional-attention mode, which preserves motion diversity for causal inference without interfering with the distillation loss. On VBench (20s generation), HiAR achieves the best overall score and the lowest temporal drift among all compared methods.

HiAR : Génération efficace de vidéos longues autorégressives via un débruitage hiérarchique

HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

Résumé

Support