Accélération sans entraînement des modèles vidéo causaux par blocs : la méthode du bloc en cascade
Block Cascading: Training Free Acceleration of Block-Causal Video Models
November 25, 2025
papers.authors: Hmrishav Bandyopadhyay, Nikhil Pinnaparaju, Rahim Entezari, Jim Scott, Yi-Zhe Song, Varun Jampani
cs.AI
papers.abstract
La génération vidéo à causalité par blocs se heurte à un compromis radical entre vitesse et qualité : les petits modèles de 1,3B n’atteignent que 16 FPS tandis que les grands modèles de 14B rampent à 4,5 FPS, forçant les utilisateurs à choisir entre réactivité et fidélité. Le Cascadage de Blocs atténue significativement ce compromis grâce à une parallélisation sans apprentissage. Notre idée clé : les blocs vidéo futurs n’ont pas besoin que les blocs actuels soient entièrement débruités pour démarrer leur génération. En initiant la génération des blocs avec un contexte partiellement débruité provenant des prédécesseurs, nous transformons les pipelines séquentiels en cascades parallèles où plusieurs blocs se débruisent simultanément. Avec 5 GPU exploitant le parallélisme temporel, nous obtenons une accélération d’environ 2× pour toutes les échelles de modèles : les modèles de 1,3B passent de 16 à 30 FPS, ceux de 14B de 4,5 à 12,5 FPS. Au-delà de la vitesse d’inférence, le Cascadage de Blocs élimine la surcharge due à la remise en cache des clés-valeurs (d’environ 200 ms) lors des changements de contexte pour la génération interactive. Des évaluations approfondies comparées à plusieurs pipelines à causalité par blocs démontrent qu’aucune perte significative de qualité de génération n’est observée lors du passage des pipelines à causalité par blocs aux pipelines à cascades de blocs pour l’inférence. Page du projet : https://hmrishavbandy.github.io/block_cascading_page/
English
Block-causal video generation faces a stark speed-quality trade-off: small 1.3B models manage only 16 FPS while large 14B models crawl at 4.5 FPS, forcing users to choose between responsiveness and quality. Block Cascading significantly mitigates this trade-off through training-free parallelization. Our key insight: future video blocks do not need fully denoised current blocks to begin generation. By starting block generation with partially denoised context from predecessors, we transform sequential pipelines into parallel cascades where multiple blocks denoise simultaneously. With 5 GPUs exploiting temporal parallelism, we achieve ~2x acceleration across all model scales: 1.3B models accelerate from 16 to 30 FPS, 14B models from 4.5 to 12.5 FPS. Beyond inference speed, Block Cascading eliminates overhead from KV-recaching (of ~200ms) during context switches for interactive generation. Extensive evaluations validated against multiple block-causal pipelines demonstrate no significant loss in generation quality when switching from block-causal to Block Cascading pipelines for inference. Project Page: https://hmrishavbandy.github.io/block_cascading_page/