HiAR: Generación eficiente de videos largos autoregresivos mediante desenfoque jerárquico

Resumen

La difusión autorregresiva (AR) ofrece un marco prometedor para generar vídeos de longitud teóricamente infinita. Sin embargo, un desafío importante es mantener la continuidad temporal evitando al mismo tiempo la degradación progresiva de la calidad causada por la acumulación de errores. Para garantizar la continuidad, los métodos existentes suelen condicionar la generación a contextos muy desruidosos; no obstante, esta práctica propaga los errores de predicción con alta certeza, agravando así la degradación. En este artículo, sostenemos que un contexto excesivamente limpio es innecesario. Inspirándonos en los modelos de difusión bidireccionales, que desruidan fotogramas con un nivel de ruido compartido manteniendo la coherencia, proponemos que condicionar la generación a un contexto con el mismo nivel de ruido que el bloque actual proporciona una señal suficiente para la consistencia temporal, mitigando eficazmente la propagación de errores. Basándonos en esta idea, proponemos HiAR, un marco de desruido jerárquico que invierte el orden de generación convencional: en lugar de completar cada bloque secuencialmente, realiza una generación causal en todos los bloques en cada paso de desruido, de modo que cada bloque siempre está condicionado a un contexto con el mismo nivel de ruido. Esta jerarquía admite de forma natural una inferencia paralela segmentada (pipelined), logrando una aceleración de 1.8x en tiempo real en nuestra configuración de 4 pasos. Observamos además que la destilación por auto-despliegue (self-rollout) bajo este paradigma amplifica un atajo de bajo movimiento inherente al objetivo de KL inverso, que busca modos. Para contrarrestar esto, introducimos un regularizador de KL directo en modo de atención bidireccional, que preserva la diversidad de movimiento para la inferencia causal sin interferir con la pérdida de destilación. En VBench (generación de 20s), HiAR logra la puntuación general más alta y la deriva temporal más baja entre todos los métodos comparados.

English

Autoregressive (AR) diffusion offers a promising framework for generating videos of theoretically infinite length. However, a major challenge is maintaining temporal continuity while preventing the progressive quality degradation caused by error accumulation. To ensure continuity, existing methods typically condition on highly denoised contexts; yet, this practice propagates prediction errors with high certainty, thereby exacerbating degradation. In this paper, we argue that a highly clean context is unnecessary. Drawing inspiration from bidirectional diffusion models, which denoise frames at a shared noise level while maintaining coherence, we propose that conditioning on context at the same noise level as the current block provides sufficient signal for temporal consistency while effectively mitigating error propagation. Building on this insight, we propose HiAR, a hierarchical denoising framework that reverses the conventional generation order: instead of completing each block sequentially, it performs causal generation across all blocks at every denoising step, so that each block is always conditioned on context at the same noise level. This hierarchy naturally admits pipelined parallel inference, yielding a 1.8 wall-clock speedup in our 4-step setting. We further observe that self-rollout distillation under this paradigm amplifies a low-motion shortcut inherent to the mode-seeking reverse-KL objective. To counteract this, we introduce a forward-KL regulariser in bidirectional-attention mode, which preserves motion diversity for causal inference without interfering with the distillation loss. On VBench (20s generation), HiAR achieves the best overall score and the lowest temporal drift among all compared methods.

HiAR: Generación eficiente de videos largos autoregresivos mediante desenfoque jerárquico

HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

Resumen

Support