HiAR: Geração Eficiente de Vídeos Longos Autoregressivos via Eliminação de Ruído Hierárquica

Resumo

A difusão autoregressiva (AR) oferece uma estrutura promissora para a geração de vídeos de comprimento teoricamente infinito. No entanto, um grande desafio é manter a continuidade temporal, evitando ao mesmo tempo a degradação progressiva da qualidade causada pelo acúmulo de erros. Para garantir a continuidade, os métodos existentes normalmente condicionam a geração em contextos altamente removidos do ruído; contudo, esta prática propaga erros de predição com alta certeza, agravando assim a degradação. Neste artigo, argumentamos que um contexto altamente limpo é desnecessário. Inspirados pelos modelos de difusão bidirecionais, que removem ruído de quadros em um nível de ruído compartilhado mantendo a coerência, propomos que condicionar a geração no contexto no mesmo nível de ruído do bloco atual fornece sinal suficiente para a consistência temporal, mitigando efetivamente a propagação de erros. Com base nessa ideia, propomos o HiAR, uma estrutura hierárquica de remoção de ruído que inverte a ordem convencional de geração: em vez de completar cada bloco sequencialmente, ele realiza uma geração causal em todos os blocos a cada etapa de remoção de ruído, de modo que cada bloco é sempre condicionado no contexto no mesmo nível de ruído. Esta hierarquia admite naturalmente inferência paralela em pipeline, resultando em uma aceleração de 1,8x no tempo real na nossa configuração de 4 passos. Observamos ainda que a auto-distilação por rollout sob este paradigma amplifica um atalho de baixo movimento inerente ao objetivo inverso de KL, que busca modos. Para neutralizar isso, introduzimos um regularizador de KL direto no modo de atenção bidirecional, que preserva a diversidade de movimento para inferência causal sem interferir com a perda de distilação. No VBench (geração de 20s), o HiAR alcança a melhor pontuação geral e o menor desvio temporal entre todos os métodos comparados.

English

Autoregressive (AR) diffusion offers a promising framework for generating videos of theoretically infinite length. However, a major challenge is maintaining temporal continuity while preventing the progressive quality degradation caused by error accumulation. To ensure continuity, existing methods typically condition on highly denoised contexts; yet, this practice propagates prediction errors with high certainty, thereby exacerbating degradation. In this paper, we argue that a highly clean context is unnecessary. Drawing inspiration from bidirectional diffusion models, which denoise frames at a shared noise level while maintaining coherence, we propose that conditioning on context at the same noise level as the current block provides sufficient signal for temporal consistency while effectively mitigating error propagation. Building on this insight, we propose HiAR, a hierarchical denoising framework that reverses the conventional generation order: instead of completing each block sequentially, it performs causal generation across all blocks at every denoising step, so that each block is always conditioned on context at the same noise level. This hierarchy naturally admits pipelined parallel inference, yielding a 1.8 wall-clock speedup in our 4-step setting. We further observe that self-rollout distillation under this paradigm amplifies a low-motion shortcut inherent to the mode-seeking reverse-KL objective. To counteract this, we introduce a forward-KL regulariser in bidirectional-attention mode, which preserves motion diversity for causal inference without interfering with the distillation loss. On VBench (20s generation), HiAR achieves the best overall score and the lowest temporal drift among all compared methods.

HiAR: Geração Eficiente de Vídeos Longos Autoregressivos via Eliminação de Ruído Hierárquica

HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

Resumo

Support