BlockVid: Difusión por Bloques para la Generación de Videos de Minutos de Duración con Alta Calidad y Coherencia
BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation
November 28, 2025
Autores: Zeyu Zhang, Shuning Chang, Yuanyu He, Yizeng Han, Jiasheng Tang, Fan Wang, Bohan Zhuang
cs.AI
Resumen
La generación de vídeos de un minuto de duración es un paso crucial hacia el desarrollo de modelos del mundo, proporcionando una base para escenas extendidas realistas y simuladores avanzados de IA. El emergente paradigma semiautoregresivo (difusión por bloques) integra las fortalezas de los modelos de difusión y autoregresivos, permitiendo la generación de vídeos de longitud arbitraria y mejorando la eficiencia en inferencia mediante el almacenamiento en caché de KV y el muestreo paralelo. Sin embargo, aún enfrenta dos desafíos persistentes: (i) la acumulación de errores a largo plazo inducida por la caché KV, y (ii) la carencia de benchmarks granulares para vídeos largos y métricas conscientes de la coherencia. Para superar estas limitaciones, proponemos BlockVid, un novedoso marco de difusión por bloques equipado con una caché KV dispersa consciente de la semántica, una estrategia de entrenamiento efectiva llamada Block Forcing, y una programación y reorganización específica del ruido por fragmentos para reducir la propagación de errores y mejorar la coherencia temporal. Además, presentamos LV-Bench, un benchmark granular para vídeos de un minuto de duración, completo con nuevas métricas que evalúan la coherencia a larga distancia. Experimentos exhaustivos en VBench y LV-Bench demuestran que BlockVid supera consistentemente a los métodos existentes en la generación de vídeos de un minuto de alta calidad y coherentes. En particular, logra una mejora del 22.2% en VDE Subject y del 19.4% en VDE Clarity en LV-Bench sobre los enfoques state-of-the-art. Sitio web del proyecto: https://ziplab.co/BlockVid. Inferix (Código): https://github.com/alibaba-damo-academy/Inferix.
English
Generating minute-long videos is a critical step toward developing world models, providing a foundation for realistic extended scenes and advanced AI simulators. The emerging semi-autoregressive (block diffusion) paradigm integrates the strengths of diffusion and autoregressive models, enabling arbitrary-length video generation and improving inference efficiency through KV caching and parallel sampling. However, it yet faces two enduring challenges: (i) KV-cache-induced long-horizon error accumulation, and (ii) the lack of fine-grained long-video benchmarks and coherence-aware metrics. To overcome these limitations, we propose BlockVid, a novel block diffusion framework equipped with semantic-aware sparse KV cache, an effective training strategy called Block Forcing, and dedicated chunk-wise noise scheduling and shuffling to reduce error propagation and enhance temporal consistency. We further introduce LV-Bench, a fine-grained benchmark for minute-long videos, complete with new metrics evaluating long-range coherence. Extensive experiments on VBench and LV-Bench demonstrate that BlockVid consistently outperforms existing methods in generating high-quality, coherent minute-long videos. In particular, it achieves a 22.2% improvement on VDE Subject and a 19.4% improvement on VDE Clarity in LV-Bench over the state of the art approaches. Project website: https://ziplab.co/BlockVid. Inferix (Code): https://github.com/alibaba-damo-academy/Inferix.