ChatPaper.aiChatPaper

BlockVid: Block-Diffusion für hochwertige und konsistente minutenlange Videogenerierung

BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation

November 28, 2025
papers.authors: Zeyu Zhang, Shuning Chang, Yuanyu He, Yizeng Han, Jiasheng Tang, Fan Wang, Bohan Zhuang
cs.AI

papers.abstract

Die Erzeugung minutenlanger Videos ist ein entscheidender Schritt auf dem Weg zur Entwicklung von Weltmodellen, da sie die Grundlage für realistische erweiterte Szenen und fortschrittliche KI-Simulatoren bildet. Das aufkommende semi-autoregressive Paradigma (Block-Diffusion) vereint die Stärken von Diffusions- und autoregressiven Modellen, ermöglicht die Erzeugung von Videos beliebiger Länge und verbessert die Inferenzeffizienz durch KV-Caching und paralleles Sampling. Allerdings stehen nach wie vor zwei grundlegende Herausforderungen im Weg: (i) KV-Cache-bedingte Fehlerakkumulation über lange Zeithorizonte und (ii) das Fehlen granulare Benchmarks für lange Videos und Kohärenz-bewusster Metriken. Um diese Einschränkungen zu überwinden, stellen wir BlockVid vor, ein neuartiges Block-Diffusion-Framework, das mit einem semantikbewussten sparse KV-Cache, einer effektiven Trainingsstrategie namens Block Forcing sowie dedizierten chunk-basierten Rauschplanungs- und Shuffling-Verfahren ausgestattet ist, um die Fehlerfortpflanzung zu reduzieren und die zeitliche Konsistenz zu verbessern. Wir führen außerdem LV-Bench ein, einen granularen Benchmark für minutenlange Videos, ergänzt um neue Metriken zur Bewertung der Langreichweiten-Kohärenz. Umfangreiche Experimente auf VBench und LV-Bench zeigen, dass BlockVid bestehende Methoden bei der Erzeugung hochwertiger, kohärenter minutenlanger Videos durchgängig übertrifft. Insbesondere erzielt es auf LV-Bench eine Verbesserung von 22,2 % bei VDE Subject und 19,4 % bei VDE Clarity gegenüber state-of-the-art-Ansätzen. Projekt-Website: https://ziplab.co/BlockVid. Inferix (Code): https://github.com/alibaba-damo-academy/Inferix.
English
Generating minute-long videos is a critical step toward developing world models, providing a foundation for realistic extended scenes and advanced AI simulators. The emerging semi-autoregressive (block diffusion) paradigm integrates the strengths of diffusion and autoregressive models, enabling arbitrary-length video generation and improving inference efficiency through KV caching and parallel sampling. However, it yet faces two enduring challenges: (i) KV-cache-induced long-horizon error accumulation, and (ii) the lack of fine-grained long-video benchmarks and coherence-aware metrics. To overcome these limitations, we propose BlockVid, a novel block diffusion framework equipped with semantic-aware sparse KV cache, an effective training strategy called Block Forcing, and dedicated chunk-wise noise scheduling and shuffling to reduce error propagation and enhance temporal consistency. We further introduce LV-Bench, a fine-grained benchmark for minute-long videos, complete with new metrics evaluating long-range coherence. Extensive experiments on VBench and LV-Bench demonstrate that BlockVid consistently outperforms existing methods in generating high-quality, coherent minute-long videos. In particular, it achieves a 22.2% improvement on VDE Subject and a 19.4% improvement on VDE Clarity in LV-Bench over the state of the art approaches. Project website: https://ziplab.co/BlockVid. Inferix (Code): https://github.com/alibaba-damo-academy/Inferix.
PDF21December 4, 2025