FlowBlending : Échantillonnage Multi-Modèle Conscient de l'Étape pour une Génération de Vidéos Rapide et de Haute Fidélité
FlowBlending: Stage-Aware Multi-Model Sampling for Fast and High-Fidelity Video Generation
December 31, 2025
papers.authors: Jibin Song, Mingi Kwon, Jaeseok Jeong, Youngjung Uh
cs.AI
papers.abstract
Dans ce travail, nous démontrons que l'impact de la capacité du modèle varie selon les pas de temps : il est crucial durant les phases initiales et finales, mais largement négligeable pendant la phase intermédiaire. En conséquence, nous proposons FlowBlending, une stratégie d'échantillonnage multi-modèles adaptative qui utilise un modèle de grande taille et un modèle de petite taille respectivement aux stades sensibles à la capacité et aux stades intermédiaires. Nous introduisons en outre des critères simples pour choisir les limites des phases et fournissons une analyse de divergence de vélocité comme proxy efficace pour identifier les régions sensibles à la capacité. Sur les jeux de données LTX-Video (2B/13B) et WAN 2.1 (1.3B/14B), FlowBlending permet une accélération de l'inférence allant jusqu'à 1,65x avec 57,35 % de moins d'opérations FLOPs, tout en maintenant la fidélité visuelle, la cohérence temporelle et l'alignement sémantique des grands modèles. FlowBlending est également compatible avec les techniques existantes d'accélération de l'échantillonnage, permettant une accélération supplémentaire allant jusqu'à 2x. La page du projet est disponible à l'adresse : https://jibin86.github.io/flowblending_project_page.
English
In this work, we show that the impact of model capacity varies across timesteps: it is crucial for the early and late stages but largely negligible during the intermediate stage. Accordingly, we propose FlowBlending, a stage-aware multi-model sampling strategy that employs a large model and a small model at capacity-sensitive stages and intermediate stages, respectively. We further introduce simple criteria to choose stage boundaries and provide a velocity-divergence analysis as an effective proxy for identifying capacity-sensitive regions. Across LTX-Video (2B/13B) and WAN 2.1 (1.3B/14B), FlowBlending achieves up to 1.65x faster inference with 57.35% fewer FLOPs, while maintaining the visual fidelity, temporal coherence, and semantic alignment of the large models. FlowBlending is also compatible with existing sampling-acceleration techniques, enabling up to 2x additional speedup. Project page is available at: https://jibin86.github.io/flowblending_project_page.