ChatPaper.aiChatPaper

블록 캐스케이딩: 블록-인과 비디오 모델의 학습 없이 가속화하기

Block Cascading: Training Free Acceleration of Block-Causal Video Models

November 25, 2025
저자: Hmrishav Bandyopadhyay, Nikhil Pinnaparaju, Rahim Entezari, Jim Scott, Yi-Zhe Song, Varun Jampani
cs.AI

초록

블록-인과 비디오 생성은 속도와 품질 간의 심각한 트레이드오프에 직면해 있습니다: 소규모 1.3B 모델은 16 FPS에 그치는 반면, 대규모 14B 모델은 4.5 FPS로 느리게 실행되어 사용자가 반응성과 품질 사이에서 선택해야 합니다. 블록 캐스케이딩은 학습 없이 가능한 병렬화를 통해 이러한 트레이드오프를 크게 완화합니다. 우리의 핵심 통찰은 다음과 같습니다: 향후 비디오 블록 생성을 시작하는 데 현재 블록이 완전히 노이즈 제거될 필요가 없습니다. 선행 블록에서 부분적으로 노이즈 제거된 컨텍스트로 블록 생성을 시작함으로써, 우리는 순차적 파이프라인을 여러 블록이 동시에 노이즈 제거를 수행하는 병렬 캐스케이드로 변환합니다. 시간적 병렬성을 활용하는 5개의 GPU를 통해 모든 모델 규모에서 약 2배 가속화를 달성했습니다: 1.3B 모델은 16 FPS에서 30 FPS로, 14B 모델은 4.5 FPS에서 12.5 FPS로 가속화됩니다. 추론 속도 이상으로, 블록 캐스케이딩은 대화형 생성 시 컨텍스트 전환 동안 발생하는 KV 재캐싱(~200ms)의 오버헤드를 제거합니다. 다양한 블록-인과 파이프라인과 비교한 폭넓은 평가를 통해, 추론 시 블록-인과 파이프라인에서 블록 캐스케이딩 파이프라인으로 전환해도 생성 품질에 유의미한 저하가 없음을 입증했습니다. 프로젝트 페이지: https://hmrishavbandy.github.io/block_cascading_page/
English
Block-causal video generation faces a stark speed-quality trade-off: small 1.3B models manage only 16 FPS while large 14B models crawl at 4.5 FPS, forcing users to choose between responsiveness and quality. Block Cascading significantly mitigates this trade-off through training-free parallelization. Our key insight: future video blocks do not need fully denoised current blocks to begin generation. By starting block generation with partially denoised context from predecessors, we transform sequential pipelines into parallel cascades where multiple blocks denoise simultaneously. With 5 GPUs exploiting temporal parallelism, we achieve ~2x acceleration across all model scales: 1.3B models accelerate from 16 to 30 FPS, 14B models from 4.5 to 12.5 FPS. Beyond inference speed, Block Cascading eliminates overhead from KV-recaching (of ~200ms) during context switches for interactive generation. Extensive evaluations validated against multiple block-causal pipelines demonstrate no significant loss in generation quality when switching from block-causal to Block Cascading pipelines for inference. Project Page: https://hmrishavbandy.github.io/block_cascading_page/
PDF74December 1, 2025