BlockVid: 高品質で一貫性のある数分間の動画生成のためのブロック拡散
BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation
November 28, 2025
著者: Zeyu Zhang, Shuning Chang, Yuanyu He, Yizeng Han, Jiasheng Tang, Fan Wang, Bohan Zhuang
cs.AI
要旨
分単位の動画生成は、世界モデルの開発に向けた重要なステップであり、現実的な長時間シーンと高度なAIシミュレーターの基盤を提供する。新興のセミオートレグレッシブ(ブロック拡散)パラダイムは、拡散モデルとオートレグレッシブモデルの長所を統合し、任意長の動画生成を可能にするとともに、KVキャッシュと並列サンプリングによる推論効率の向上を実現している。しかし、依然として二つの課題が残されている:(i)KVキャッシュに起因する長期誤差蓄積問題、(ii)細粒度な長尺動画ベンチマークとコヒーレンス評価指標の不足である。これらの制限を克服するため、本論文ではBlockVidを提案する。これはセマンティックを考慮した疎KVキャッシュを備えた新しいブロック拡散フレームワークであり、Block Forcingと称する効果的な学習戦略、誤差伝播の低減と時間的一貫性の向上を図る専用のチャンク単位ノイズスケジューリング・シャッフリング機構を導入する。さらに、分単位の動画向け細粒度ベンチマークLV-Benchを構築し、長距離コヒーレンスを評価する新規指標を整備した。VBenchおよびLV-Benchにおける大規模実験により、BlockVidが高品質で一貫性のある分単位動画の生成において、既存手法を一貫して凌駕することを実証した。特にLV-Benchでは、VDE Subjectで22.2%、VDE Clarityで19.4%の改善を最先端手法に対して達成している。プロジェクトサイト:https://ziplab.co/BlockVid。Inferix(コード):https://github.com/alibaba-damo-academy/Inferix。
English
Generating minute-long videos is a critical step toward developing world models, providing a foundation for realistic extended scenes and advanced AI simulators. The emerging semi-autoregressive (block diffusion) paradigm integrates the strengths of diffusion and autoregressive models, enabling arbitrary-length video generation and improving inference efficiency through KV caching and parallel sampling. However, it yet faces two enduring challenges: (i) KV-cache-induced long-horizon error accumulation, and (ii) the lack of fine-grained long-video benchmarks and coherence-aware metrics. To overcome these limitations, we propose BlockVid, a novel block diffusion framework equipped with semantic-aware sparse KV cache, an effective training strategy called Block Forcing, and dedicated chunk-wise noise scheduling and shuffling to reduce error propagation and enhance temporal consistency. We further introduce LV-Bench, a fine-grained benchmark for minute-long videos, complete with new metrics evaluating long-range coherence. Extensive experiments on VBench and LV-Bench demonstrate that BlockVid consistently outperforms existing methods in generating high-quality, coherent minute-long videos. In particular, it achieves a 22.2% improvement on VDE Subject and a 19.4% improvement on VDE Clarity in LV-Bench over the state of the art approaches. Project website: https://ziplab.co/BlockVid. Inferix (Code): https://github.com/alibaba-damo-academy/Inferix.