BlockVid : Diffusion par Blocs pour la Génération de Vidéos de Haute Qualité et Cohérentes d'une Minute
BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation
November 28, 2025
papers.authors: Zeyu Zhang, Shuning Chang, Yuanyu He, Yizeng Han, Jiasheng Tang, Fan Wang, Bohan Zhuang
cs.AI
papers.abstract
La génération de vidéos d'une minute constitue une étape cruciale vers le développement de modèles du monde, offrant une base pour la création de scènes étendues réalistes et de simulateurs d'IA avancés. Le paradigme semi-autorégressif émergent (diffusion par blocs) intègre les atouts des modèles de diffusion et autorégressifs, permettant une génération vidéo de longueur arbitraire et améliorant l'efficacité de l'inférence via la mise en cache KV et l'échantillonnage parallèle. Cependant, il reste confronté à deux défis persistants : (i) l'accumulation d'erreurs à long terme induite par le cache KV, et (ii) l'absence de benchmarks granulaires pour les longues vidéos et de métriques évaluant la cohérence temporelle. Pour surmonter ces limitations, nous proposons BlockVid, une nouvelle architecture de diffusion par blocs dotée d'un cache KV parcimonieux sémantiquement conscient, d'une stratégie d'apprentissage efficace appelée Block Forcing, et d'une planification ainsi qu'un brassage du bruit dédiés par tronçons pour réduire la propagation des erreurs et renforcer la cohérence temporelle. Nous introduisons également LV-Bench, un benchmark granulaire pour les vidéos d'une minute, complété par de nouvelles métriques évaluant la cohérence à long terme. Des expériences approfondies sur VBench et LV-Bench démontrent que BlockVid surpasse constamment les méthodes existantes dans la génération de vidéos d'une minute de haute qualité et cohérentes. En particulier, il obtient une amélioration de 22,2 % sur VDE Subject et de 19,4 % sur VDE Clarity dans LV-Bench par rapport aux approches de l'état de l'art. Site du projet : https://ziplab.co/BlockVid. Inferix (Code) : https://github.com/alibaba-damo-academy/Inferix.
English
Generating minute-long videos is a critical step toward developing world models, providing a foundation for realistic extended scenes and advanced AI simulators. The emerging semi-autoregressive (block diffusion) paradigm integrates the strengths of diffusion and autoregressive models, enabling arbitrary-length video generation and improving inference efficiency through KV caching and parallel sampling. However, it yet faces two enduring challenges: (i) KV-cache-induced long-horizon error accumulation, and (ii) the lack of fine-grained long-video benchmarks and coherence-aware metrics. To overcome these limitations, we propose BlockVid, a novel block diffusion framework equipped with semantic-aware sparse KV cache, an effective training strategy called Block Forcing, and dedicated chunk-wise noise scheduling and shuffling to reduce error propagation and enhance temporal consistency. We further introduce LV-Bench, a fine-grained benchmark for minute-long videos, complete with new metrics evaluating long-range coherence. Extensive experiments on VBench and LV-Bench demonstrate that BlockVid consistently outperforms existing methods in generating high-quality, coherent minute-long videos. In particular, it achieves a 22.2% improvement on VDE Subject and a 19.4% improvement on VDE Clarity in LV-Bench over the state of the art approaches. Project website: https://ziplab.co/BlockVid. Inferix (Code): https://github.com/alibaba-damo-academy/Inferix.