Cascata de Blocos: Aceleração sem Treinamento de Modelos de Vídeo Bloco-Causais

Resumo

A geração de vídeo com causalidade em blocos enfrenta uma acentuada relação de compromisso entre velocidade e qualidade: modelos pequenos de 1,3B atingem apenas 16 FPS, enquanto modelos grandes de 14B avançam lentamente a 4,5 FPS, forçando os utilizadores a escolher entre responsividade e qualidade. A Cascata de Blocos mitiga significativamente este compromisso através de uma paralelização que não requer treino adicional. A nossa principal perceção: os blocos de vídeo futuros não necessitam de blocos atuais totalmente removidos de ruído para iniciar a geração. Ao iniciar a geração de blocos com contexto parcialmente removido de ruído dos antecessores, transformamos pipelines sequenciais em cascatas paralelas onde múltiplos blocos removem ruído simultaneamente. Com 5 GPUs a explorar o paralelismo temporal, alcançamos uma aceleração de ~2x em todas as escalas de modelo: modelos de 1,3B aceleram de 16 para 30 FPS, modelos de 14B de 4,5 para 12,5 FPS. Para além da velocidade de inferência, a Cascata de Blocos elimina a sobrecarga do *KV-caching* (de ~200ms) durante as mudanças de contexto para geração interativa. Avaliações extensivas validadas com múltiplos pipelines de causalidade em blocos demonstram que não há perda significativa na qualidade da geração ao mudar de pipelines de causalidade em blocos para pipelines de Cascata de Blocos para inferência. Página do Projeto: https://hmrishavbandy.github.io/block_cascading_page/

English

Block-causal video generation faces a stark speed-quality trade-off: small 1.3B models manage only 16 FPS while large 14B models crawl at 4.5 FPS, forcing users to choose between responsiveness and quality. Block Cascading significantly mitigates this trade-off through training-free parallelization. Our key insight: future video blocks do not need fully denoised current blocks to begin generation. By starting block generation with partially denoised context from predecessors, we transform sequential pipelines into parallel cascades where multiple blocks denoise simultaneously. With 5 GPUs exploiting temporal parallelism, we achieve ~2x acceleration across all model scales: 1.3B models accelerate from 16 to 30 FPS, 14B models from 4.5 to 12.5 FPS. Beyond inference speed, Block Cascading eliminates overhead from KV-recaching (of ~200ms) during context switches for interactive generation. Extensive evaluations validated against multiple block-causal pipelines demonstrate no significant loss in generation quality when switching from block-causal to Block Cascading pipelines for inference. Project Page: https://hmrishavbandy.github.io/block_cascading_page/

Cascata de Blocos: Aceleração sem Treinamento de Modelos de Vídeo Bloco-Causais

Block Cascading: Training Free Acceleration of Block-Causal Video Models

Resumo

Support