FlowBlending: Muestreo Multi-Modelo Consciente de la Etapa para una Generación de Vídeo Rápida y de Alta Fidelidad
FlowBlending: Stage-Aware Multi-Model Sampling for Fast and High-Fidelity Video Generation
December 31, 2025
Autores: Jibin Song, Mingi Kwon, Jaeseok Jeong, Youngjung Uh
cs.AI
Resumen
En este trabajo, demostramos que el impacto de la capacidad del modelo varía a lo largo de los intervalos de tiempo: es crucial en las etapas iniciales y finales, pero en gran medida insignificante durante la etapa intermedia. En consecuencia, proponemos FlowBlending, una estrategia de muestreo multi-modelo consciente de la etapa que emplea un modelo grande y un modelo pequeño en las etapas sensibles a la capacidad y en las etapas intermedias, respectivamente. Además, introducimos criterios simples para elegir los límites de las etapas y proporcionamos un análisis de divergencia-velocidad como un proxy efectivo para identificar las regiones sensibles a la capacidad. En LTX-Video (2B/13B) y WAN 2.1 (1.3B/14B), FlowBlending logra una inferencia hasta 1.65 veces más rápida con un 57.35% menos de operaciones de punto flotante (FLOPs), manteniendo la fidelidad visual, la coherencia temporal y la alineación semántica de los modelos grandes. FlowBlending también es compatible con las técnicas existentes de aceleración de muestreo, permitiendo una aceleración adicional de hasta 2 veces. La página del proyecto está disponible en: https://jibin86.github.io/flowblending_project_page.
English
In this work, we show that the impact of model capacity varies across timesteps: it is crucial for the early and late stages but largely negligible during the intermediate stage. Accordingly, we propose FlowBlending, a stage-aware multi-model sampling strategy that employs a large model and a small model at capacity-sensitive stages and intermediate stages, respectively. We further introduce simple criteria to choose stage boundaries and provide a velocity-divergence analysis as an effective proxy for identifying capacity-sensitive regions. Across LTX-Video (2B/13B) and WAN 2.1 (1.3B/14B), FlowBlending achieves up to 1.65x faster inference with 57.35% fewer FLOPs, while maintaining the visual fidelity, temporal coherence, and semantic alignment of the large models. FlowBlending is also compatible with existing sampling-acceleration techniques, enabling up to 2x additional speedup. Project page is available at: https://jibin86.github.io/flowblending_project_page.