BlockVid: Difusão em Blocos para Geração de Vídeos de Longa Duração com Alta Qualidade e Consistência

Resumo

A geração de vídeos com duração de minutos é um passo crítico para o desenvolvimento de modelos de mundo, fornecendo uma base para cenas estendidas realistas e simuladores de IA avançados. O emergente paradigma semi-autorregressivo (difusão em blocos) integra os pontos fortes dos modelos de difusão e autorregressivos, permitindo a geração de vídeos de comprimento arbitrário e melhorando a eficiência da inferência através de cache KV e amostragem paralela. No entanto, ele ainda enfrenta dois desafios persistentes: (i) o acúmulo de erro de longo horizonte induzido pelo cache KV, e (ii) a falta de benchmarks granulares para vídeos longos e métricas conscientes da coerência. Para superar essas limitações, propomos o BlockVid, uma nova estrutura de difusão em blocos equipada com cache KV esparso semântico, uma estratégia de treinamento eficaz chamada Block Forcing, e agendamento e embaralhamento de ruído dedicados por segmentos para reduzir a propagação de erros e melhorar a consistência temporal. Introduzimos ainda o LV-Bench, um benchmark granular para vídeos com duração de minutos, completo com novas métricas que avaliam a coerência de longo alcance. Extensos experimentos no VBench e no LV-Bench demonstram que o BlockVid supera consistentemente os métodos existentes na geração de vídeos de minutos de alta qualidade e coerentes. Em particular, ele alcança uma melhoria de 22,2% no VDE Subject e de 19,4% no VDE Clarity no LV-Bench em relação às abordagens state-of-the-art. Site do projeto: https://ziplab.co/BlockVid. Inferix (Código): https://github.com/alibaba-damo-academy/Inferix.

English

Generating minute-long videos is a critical step toward developing world models, providing a foundation for realistic extended scenes and advanced AI simulators. The emerging semi-autoregressive (block diffusion) paradigm integrates the strengths of diffusion and autoregressive models, enabling arbitrary-length video generation and improving inference efficiency through KV caching and parallel sampling. However, it yet faces two enduring challenges: (i) KV-cache-induced long-horizon error accumulation, and (ii) the lack of fine-grained long-video benchmarks and coherence-aware metrics. To overcome these limitations, we propose BlockVid, a novel block diffusion framework equipped with semantic-aware sparse KV cache, an effective training strategy called Block Forcing, and dedicated chunk-wise noise scheduling and shuffling to reduce error propagation and enhance temporal consistency. We further introduce LV-Bench, a fine-grained benchmark for minute-long videos, complete with new metrics evaluating long-range coherence. Extensive experiments on VBench and LV-Bench demonstrate that BlockVid consistently outperforms existing methods in generating high-quality, coherent minute-long videos. In particular, it achieves a 22.2% improvement on VDE Subject and a 19.4% improvement on VDE Clarity in LV-Bench over the state of the art approaches. Project website: https://ziplab.co/BlockVid. Inferix (Code): https://github.com/alibaba-damo-academy/Inferix.