BlockVid: 고품질 및 일관된 1분 길이 비디오 생성을 위한 블록 확산
BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation
November 28, 2025
저자: Zeyu Zhang, Shuning Chang, Yuanyu He, Yizeng Han, Jiasheng Tang, Fan Wang, Bohan Zhuang
cs.AI
초록
분 단위 영상 생성은 세계 모델 개발을 위한 중요한 단계로, 현실적인 장면 연속성과 고급 AI 시뮬레이터의 기반을 제공합니다. 새롭게 부상하는 준자기회귀(블록 확산) 패러다임은 확산 모델과 자기회귀 모델의 장점을 통합하여 임의 길이의 영상 생성을 가능하게 하고 KV 캐싱 및 병렬 샘플링을 통해 추론 효율을 향상시킵니다. 그러나 여전히 두 가지 지속적인 과제에 직면해 있습니다: (i) KV 캐시로 인한 장기간 오차 누적과 (ii) 세분화된 장기 영상 벤치마크 및 일관성 인식 메트릭의 부재. 이러한 한계를 극복하기 위해 우리는 BlockVid를 제안합니다. 이는 의미 인식 희소 KV 캐시, Block Forcing이라는 효과적인 학습 전략, 그리고 오차 전파 감소와 시간적 일관성 향상을 위한 전용 청크 단위 노이즈 스케줄링 및 셔플링을 갖춘 새로운 블록 확산 프레임워크입니다. 또한 장기 일관성을 평가하는 새로운 메트릭을 갖춘 분 단위 영상을 위한 세분화된 벤치마크인 LV-Bench를 소개합니다. VBench와 LV-Bench에서의 광범위한 실험을 통해 BlockVid가 고품질의 일관된 분 단위 영상 생성에서 기존 방법들을 지속적으로 능가함을 입증했습니다. 특히 LV-Bench에서 VDE 주체성 기준으로 22.2%, VDE 선명도 기준으로 19.4%의 성능 향상을 최첨단 접근법 대비 달성했습니다. 프로젝트 웹사이트: https://ziplab.co/BlockVid. Inferix (코드): https://github.com/alibaba-damo-academy/Inferix.
English
Generating minute-long videos is a critical step toward developing world models, providing a foundation for realistic extended scenes and advanced AI simulators. The emerging semi-autoregressive (block diffusion) paradigm integrates the strengths of diffusion and autoregressive models, enabling arbitrary-length video generation and improving inference efficiency through KV caching and parallel sampling. However, it yet faces two enduring challenges: (i) KV-cache-induced long-horizon error accumulation, and (ii) the lack of fine-grained long-video benchmarks and coherence-aware metrics. To overcome these limitations, we propose BlockVid, a novel block diffusion framework equipped with semantic-aware sparse KV cache, an effective training strategy called Block Forcing, and dedicated chunk-wise noise scheduling and shuffling to reduce error propagation and enhance temporal consistency. We further introduce LV-Bench, a fine-grained benchmark for minute-long videos, complete with new metrics evaluating long-range coherence. Extensive experiments on VBench and LV-Bench demonstrate that BlockVid consistently outperforms existing methods in generating high-quality, coherent minute-long videos. In particular, it achieves a 22.2% improvement on VDE Subject and a 19.4% improvement on VDE Clarity in LV-Bench over the state of the art approaches. Project website: https://ziplab.co/BlockVid. Inferix (Code): https://github.com/alibaba-damo-academy/Inferix.