HiAR: Generazione Efficiente di Video Lunghi Autoregressivi tramite Denoising Gerarchico

Abstract

La diffusione autoregressiva (AR) offre un quadro promettente per generare video di lunghezza teoricamente infinita. Tuttavia, una sfida principale è mantenere la continuità temporale prevenendo al contempo il progressivo degrado della qualità causato dall'accumulo di errori. Per garantire la continuità, i metodi esistenti tipicamente condizionano la generazione su contesti altamente denoisati; questa pratica, tuttavia, propaga gli errori di predizione con alta certezza, aggravando così il degrado. In questo articolo, sosteniamo che un contesto estremamente pulito non sia necessario. Traendo ispirazione dai modelli di diffusione bidirezionale, che denoisano i fotogrammi a un livello di rumore condiviso mantenendo la coerenza, proponiamo che il condizionamento su un contesto allo stesso livello di rumore del blocco corrente fornisca un segnale sufficiente per la coerenza temporale, mitigando efficacemente la propagazione degli errori. Basandoci su questa intuizione, proponiamo HiAR, un framework di denoising gerarchico che inverte l'ordine di generazione convenzionale: invece di completare ogni blocco sequenzialmente, esso esegue una generazione causale su tutti i blocchi ad ogni passo di denoising, in modo che ogni blocco sia sempre condizionato su un contesto allo stesso livello di rumore. Questa gerarchia si presta naturalmente a un'inferenza parallela in pipeline, producendo un accelerazione di 1.8x nel tempo reale ("wall-clock") nella nostra configurazione a 4 passi. Osserviamo inoltre che la distillazione tramite "self-rollout" in questo paradigma amplifica una scorciatoia di basso movimento intrinseca all'obiettivo reverse-KL propenso alla moda. Per contrastare ciò, introduciamo un regolarizzatore forward-KL in modalità "bidirectional-attention", che preserva la diversità del movimento per l'inferenza causale senza interferire con la loss di distillazione. Su VBench (generazione di 20s), HiAR raggiunge il punteggio complessivo migliore e la minore deriva temporale tra tutti i metodi confrontati.

English

Autoregressive (AR) diffusion offers a promising framework for generating videos of theoretically infinite length. However, a major challenge is maintaining temporal continuity while preventing the progressive quality degradation caused by error accumulation. To ensure continuity, existing methods typically condition on highly denoised contexts; yet, this practice propagates prediction errors with high certainty, thereby exacerbating degradation. In this paper, we argue that a highly clean context is unnecessary. Drawing inspiration from bidirectional diffusion models, which denoise frames at a shared noise level while maintaining coherence, we propose that conditioning on context at the same noise level as the current block provides sufficient signal for temporal consistency while effectively mitigating error propagation. Building on this insight, we propose HiAR, a hierarchical denoising framework that reverses the conventional generation order: instead of completing each block sequentially, it performs causal generation across all blocks at every denoising step, so that each block is always conditioned on context at the same noise level. This hierarchy naturally admits pipelined parallel inference, yielding a 1.8 wall-clock speedup in our 4-step setting. We further observe that self-rollout distillation under this paradigm amplifies a low-motion shortcut inherent to the mode-seeking reverse-KL objective. To counteract this, we introduce a forward-KL regulariser in bidirectional-attention mode, which preserves motion diversity for causal inference without interfering with the distillation loss. On VBench (20s generation), HiAR achieves the best overall score and the lowest temporal drift among all compared methods.

HiAR: Generazione Efficiente di Video Lunghi Autoregressivi tramite Denoising Gerarchico

HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

Abstract

Support