BlockVid: Блочная диффузия для генерации высококачественных и согласованных минутных видео
BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation
November 28, 2025
Авторы: Zeyu Zhang, Shuning Chang, Yuanyu He, Yizeng Han, Jiasheng Tang, Fan Wang, Bohan Zhuang
cs.AI
Аннотация
Создание минутных видео является ключевым шагом на пути к разработке мировых моделей, обеспечивая основу для реалистичных протяженных сцен и продвинутых ИИ-симуляторов. Появляющаяся полуавторегрессионная парадигма (блочная диффузия) объединяет преимущества диффузионных и авторегрессионных моделей, позволяя генерировать видео произвольной длины и повышая эффективность вывода за счет KV-кэширования и параллельного сэмплирования. Однако она сталкивается с двумя сохраняющимися проблемами: (i) накоплением ошибок на длинных горизонтах, вызванным KV-кэшем, и (ii) отсутствием детализированных бенчмарков для длинных видео и метрик, учитывающих согласованность. Для преодоления этих ограничений мы предлагаем BlockVid — новую框架 блочной диффузии, оснащенную семантически осознанным разреженным KV-кэшем, эффективной стратегией обучения под названием Block Forcing, а также специализированным покусочным планированием шума и перемешиванием для снижения распространения ошибок и улучшения временной согласованности. Мы также представляем LV-Bench — детализированный бенчмарк для минутных видео, включающий новые метрики для оценки долгосрочной согласованности. Многочисленные эксперименты на VBench и LV-Bench демонстрируют, что BlockVid стабильно превосходит существующие методы в генерации высококачественных, согласованных минутных видео. В частности, он достигает улучшения на 22,2% по VDE Subject и на 19,4% по VDE Clarity в LV-Bench по сравнению с передовыми подходами. Веб-сайт проекта: https://ziplab.co/BlockVid. Inferix (Код): https://github.com/alibaba-damo-academy/Inferix.
English
Generating minute-long videos is a critical step toward developing world models, providing a foundation for realistic extended scenes and advanced AI simulators. The emerging semi-autoregressive (block diffusion) paradigm integrates the strengths of diffusion and autoregressive models, enabling arbitrary-length video generation and improving inference efficiency through KV caching and parallel sampling. However, it yet faces two enduring challenges: (i) KV-cache-induced long-horizon error accumulation, and (ii) the lack of fine-grained long-video benchmarks and coherence-aware metrics. To overcome these limitations, we propose BlockVid, a novel block diffusion framework equipped with semantic-aware sparse KV cache, an effective training strategy called Block Forcing, and dedicated chunk-wise noise scheduling and shuffling to reduce error propagation and enhance temporal consistency. We further introduce LV-Bench, a fine-grained benchmark for minute-long videos, complete with new metrics evaluating long-range coherence. Extensive experiments on VBench and LV-Bench demonstrate that BlockVid consistently outperforms existing methods in generating high-quality, coherent minute-long videos. In particular, it achieves a 22.2% improvement on VDE Subject and a 19.4% improvement on VDE Clarity in LV-Bench over the state of the art approaches. Project website: https://ziplab.co/BlockVid. Inferix (Code): https://github.com/alibaba-damo-academy/Inferix.