BlockVid: Diffusione a Blocchi per la Generazione di Video di Alta Qualità e Coerenti della Durata di Minuti
BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation
November 28, 2025
Autori: Zeyu Zhang, Shuning Chang, Yuanyu He, Yizeng Han, Jiasheng Tang, Fan Wang, Bohan Zhuang
cs.AI
Abstract
La generazione di video della durata di un minuto rappresenta un passo cruciale verso lo sviluppo di modelli mondiali, fornendo una base per scene estese realistiche e simulatori di IA avanzati. Il paradigma emergente semi-autoregressivo (block diffusion) integra i punti di forza dei modelli diffusion e autoregressivi, consentendo la generazione di video di lunghezza arbitraria e migliorando l'efficienza inferenziale attraverso la KV caching e il campionamento parallelo. Tuttavia, esso deve ancora affrontare due sfide persistenti: (i) l'accumulo di errori a lungo orizzonte indotto dalla KV cache, e (ii) la mancanza di benchmark granulari per video lunghi e metriche basate sulla coerenza. Per superare queste limitazioni, proponiamo BlockVid, un nuovo framework di block diffusion dotato di una KV cache sparsa semanticamente consapevole, una strategia di training efficace chiamata Block Forcing, e dedicati meccanismi di schedulazione e shuffling del rumore per chunk, per ridurre la propagazione degli errori e migliorare la coerenza temporale. Introduciamo inoltre LV-Bench, un benchmark granulare per video della durata di un minuto, completo con nuove metriche per valutare la coerenza a lungo raggio. Esperimenti estensivi su VBench e LV-Bench dimostrano che BlockVid supera costantemente i metodi esistenti nella generazione di video di un minuto di alta qualità e coerenti. In particolare, registra un miglioramento del 22.2% su VDE Subject e del 19.4% su VDE Clarity in LV-Bench rispetto agli approcci state-of-the-art. Sito del progetto: https://ziplab.co/BlockVid. Inferix (Codice): https://github.com/alibaba-damo-academy/Inferix.
English
Generating minute-long videos is a critical step toward developing world models, providing a foundation for realistic extended scenes and advanced AI simulators. The emerging semi-autoregressive (block diffusion) paradigm integrates the strengths of diffusion and autoregressive models, enabling arbitrary-length video generation and improving inference efficiency through KV caching and parallel sampling. However, it yet faces two enduring challenges: (i) KV-cache-induced long-horizon error accumulation, and (ii) the lack of fine-grained long-video benchmarks and coherence-aware metrics. To overcome these limitations, we propose BlockVid, a novel block diffusion framework equipped with semantic-aware sparse KV cache, an effective training strategy called Block Forcing, and dedicated chunk-wise noise scheduling and shuffling to reduce error propagation and enhance temporal consistency. We further introduce LV-Bench, a fine-grained benchmark for minute-long videos, complete with new metrics evaluating long-range coherence. Extensive experiments on VBench and LV-Bench demonstrate that BlockVid consistently outperforms existing methods in generating high-quality, coherent minute-long videos. In particular, it achieves a 22.2% improvement on VDE Subject and a 19.4% improvement on VDE Clarity in LV-Bench over the state of the art approaches. Project website: https://ziplab.co/BlockVid. Inferix (Code): https://github.com/alibaba-damo-academy/Inferix.