Cascada de Bloques: Aceleración sin Entrenamiento de Modelos de Video con Causalidad por Bloques
Block Cascading: Training Free Acceleration of Block-Causal Video Models
November 25, 2025
Autores: Hmrishav Bandyopadhyay, Nikhil Pinnaparaju, Rahim Entezari, Jim Scott, Yi-Zhe Song, Varun Jampani
cs.AI
Resumen
La generación de vídeo causal por bloques enfrenta una drástica disyuntiva entre velocidad y calidad: los modelos pequeños de 1.300 millones de parámetros (1,3B) apenas alcanzan 16 FPS, mientras que los modelos grandes de 14.000 millones (14B) se arrastran a 4,5 FPS, lo que obliga a los usuarios a elegir entre capacidad de respuesta y calidad. La Cascada de Bloques mitiga significativamente esta disyuntiva mediante una paralelización que no requiere entrenamiento. Nuestra idea clave es que los bloques de vídeo futuros no necesitan que los bloques actuales estén completamente libres de ruido para comenzar su generación. Al iniciar la generación de un bloque con un contexto parcialmente limpiado de sus predecesores, transformamos las canalizaciones secuenciales en cascadas paralelas donde múltiples bloques se limpian de ruido simultáneamente. Con 5 GPUs explotando el paralelismo temporal, logramos una aceleración de ~2x en todas las escalas de modelos: los modelos de 1,3B aceleran de 16 a 30 FPS, y los modelos de 14B de 4,5 a 12,5 FPS. Más allá de la velocidad de inferencia, la Cascada de Bloques elimina la sobrecarga del recaché de KV (de ~200ms) durante los cambios de contexto para la generación interactiva. Evaluaciones exhaustivas validadas frente a múltiples canalizaciones causales por bloques demuestran que no hay una pérdida significativa en la calidad de la generación al cambiar de canalizaciones causales por bloques a canalizaciones de Cascada de Bloques para la inferencia. Página del proyecto: https://hmrishavbandy.github.io/block_cascading_page/
English
Block-causal video generation faces a stark speed-quality trade-off: small 1.3B models manage only 16 FPS while large 14B models crawl at 4.5 FPS, forcing users to choose between responsiveness and quality. Block Cascading significantly mitigates this trade-off through training-free parallelization. Our key insight: future video blocks do not need fully denoised current blocks to begin generation. By starting block generation with partially denoised context from predecessors, we transform sequential pipelines into parallel cascades where multiple blocks denoise simultaneously. With 5 GPUs exploiting temporal parallelism, we achieve ~2x acceleration across all model scales: 1.3B models accelerate from 16 to 30 FPS, 14B models from 4.5 to 12.5 FPS. Beyond inference speed, Block Cascading eliminates overhead from KV-recaching (of ~200ms) during context switches for interactive generation. Extensive evaluations validated against multiple block-causal pipelines demonstrate no significant loss in generation quality when switching from block-causal to Block Cascading pipelines for inference. Project Page: https://hmrishavbandy.github.io/block_cascading_page/