HiAR: Efficiënte autoregressieve lange videogeneratie via hiërarchische ruisverwijdering

Samenvatting

Autoregressieve (AR) diffusie biedt een veelbelovend kader voor het genereren van video's van theoretisch oneindige lengte. Een grote uitdaging is echter het handhaven van temporele continuïteit en het voorkomen van de progressieve kwaliteitsachteruitgang veroorzaakt door foutenaccumulatie. Om continuïteit te waarborgen, conditioneren bestaande methoden typisch op sterk gedenoiseerde context; deze praktijk verspreidt echter voorspellingsfouten met hoge zekerheid, waardoor degradatie wordt verergerd. In dit artikel beargumenteren wij dat een zeer schone context onnodig is. Geïnspireerd door bidirectionele diffusiemodellen, die frames op een gedeeld ruisniveau denoiseren terwijl ze coherentie behouden, stellen wij voor dat conditionering op context op hetzelfde ruisniveau als het huidige blok voldoende signaal biedt voor temporele consistentie en tegelijkertijd foutpropagatie effectief vermindert. Voortbouwend op dit inzicht presenteren wij HiAR, een hiërarchisch denoiseringskader dat de conventionele generatievolgorde omkeert: in plaats van elk blok sequentieel te voltooien, voert het causale generatie uit over alle blokken bij elke denoiseringsstap, zodat elk blok altijd wordt geconditioneerd op context op hetzelfde ruisniveau. Deze hiërarchie maakt op natuurlijke wijze gepipelineerde parallelle inferentie mogelijk, wat een 1,8x snelheidswinst in wall-clock tijd oplevert in onze 4-staps configuratie. Wij observeren verder dat self-rollout-distillatie binnen dit paradigma een 'low-motion shortcut' versterkt die inherent is aan het moduszoekende reverse-KL-doel. Om dit tegen te gaan, introduceren wij een forward-KL-regularisator in bidirectionele-attentiemodus, die bewegingsdiversiteit behoudt voor causale inferentie zonder de distillatieloss te verstoren. Op VBench (20s generatie) behaalt HiAR de hoogste overall score en de laagste temporele drift van alle vergeleken methoden.

English

Autoregressive (AR) diffusion offers a promising framework for generating videos of theoretically infinite length. However, a major challenge is maintaining temporal continuity while preventing the progressive quality degradation caused by error accumulation. To ensure continuity, existing methods typically condition on highly denoised contexts; yet, this practice propagates prediction errors with high certainty, thereby exacerbating degradation. In this paper, we argue that a highly clean context is unnecessary. Drawing inspiration from bidirectional diffusion models, which denoise frames at a shared noise level while maintaining coherence, we propose that conditioning on context at the same noise level as the current block provides sufficient signal for temporal consistency while effectively mitigating error propagation. Building on this insight, we propose HiAR, a hierarchical denoising framework that reverses the conventional generation order: instead of completing each block sequentially, it performs causal generation across all blocks at every denoising step, so that each block is always conditioned on context at the same noise level. This hierarchy naturally admits pipelined parallel inference, yielding a 1.8 wall-clock speedup in our 4-step setting. We further observe that self-rollout distillation under this paradigm amplifies a low-motion shortcut inherent to the mode-seeking reverse-KL objective. To counteract this, we introduce a forward-KL regulariser in bidirectional-attention mode, which preserves motion diversity for causal inference without interfering with the distillation loss. On VBench (20s generation), HiAR achieves the best overall score and the lowest temporal drift among all compared methods.

HiAR: Efficiënte autoregressieve lange videogeneratie via hiërarchische ruisverwijdering

HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

Samenvatting

Support