ChatPaper.aiChatPaper

BlockVid: Block Diffusie voor Hoogwaardige en Consistente Minuutlange Videogeneratie

BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation

November 28, 2025
Auteurs: Zeyu Zhang, Shuning Chang, Yuanyu He, Yizeng Han, Jiasheng Tang, Fan Wang, Bohan Zhuang
cs.AI

Samenvatting

Het genereren van minutenlange video's is een cruciale stap in de ontwikkeling van wereldmodellen, en vormt de basis voor realistische uitgebreide scènes en geavanceerde AI-simulators. Het opkomende semi-autoregressieve paradigma (block diffusion) combineert de sterke punten van diffusie- en autoregressieve modellen, waardoor videogeneratie van willekeurige lengte mogelijk wordt en de inferentie-efficiëntie verbetert via KV-caching en parallelle sampling. Desalniettemin kampt het met twee hardnekkige uitdagingen: (i) foutaccumulatie over lange tijdshorizons veroorzaakt door KV-caching, en (ii) het ontbreken van fijnmazige benchmarks voor lange video's en coherentiebewuste metrieken. Om deze beperkingen te overwinnen, presenteren we BlockVid, een nieuw block diffusion-framework voorzien van semantisch-bewuste sparse KV-cache, een effectieve trainingsstrategie genaamd Block Forcing, en specifieke chunk-gewijze noise scheduling en shuffling om foutpropagatie te verminderen en temporele consistentie te verbeteren. We introduceren verder LV-Bench, een fijnmazige benchmark voor minutenlange video's, voorzien van nieuwe metrieken die lange-afstandscoherentie evalueren. Uitgebreide experimenten op VBench en LV-Bench tonen aan dat BlockVid consistent superieure prestaties levert bij het genereren van hoogwaardige, coherente minutenlange video's. Het behaalt met name een verbetering van 22,2% op VDE Subject en 19,4% op VDE Clarity in LV-Bench ten opzichte van state-of-the-art methoden. Projectwebsite: https://ziplab.co/BlockVid. Inferix (Code): https://github.com/alibaba-damo-academy/Inferix.
English
Generating minute-long videos is a critical step toward developing world models, providing a foundation for realistic extended scenes and advanced AI simulators. The emerging semi-autoregressive (block diffusion) paradigm integrates the strengths of diffusion and autoregressive models, enabling arbitrary-length video generation and improving inference efficiency through KV caching and parallel sampling. However, it yet faces two enduring challenges: (i) KV-cache-induced long-horizon error accumulation, and (ii) the lack of fine-grained long-video benchmarks and coherence-aware metrics. To overcome these limitations, we propose BlockVid, a novel block diffusion framework equipped with semantic-aware sparse KV cache, an effective training strategy called Block Forcing, and dedicated chunk-wise noise scheduling and shuffling to reduce error propagation and enhance temporal consistency. We further introduce LV-Bench, a fine-grained benchmark for minute-long videos, complete with new metrics evaluating long-range coherence. Extensive experiments on VBench and LV-Bench demonstrate that BlockVid consistently outperforms existing methods in generating high-quality, coherent minute-long videos. In particular, it achieves a 22.2% improvement on VDE Subject and a 19.4% improvement on VDE Clarity in LV-Bench over the state of the art approaches. Project website: https://ziplab.co/BlockVid. Inferix (Code): https://github.com/alibaba-damo-academy/Inferix.
PDF21December 4, 2025