ChatPaper.aiChatPaper

FlowBlending: Amostragem Multi-Modelo Consciente da Fase para Geração de Vídeo Rápida e de Alta Fidelidade

FlowBlending: Stage-Aware Multi-Model Sampling for Fast and High-Fidelity Video Generation

December 31, 2025
Autores: Jibin Song, Mingi Kwon, Jaeseok Jeong, Youngjung Uh
cs.AI

Resumo

Neste trabalho, demonstramos que o impacto da capacidade do modelo varia ao longo dos intervalos de tempo: é crucial nos estágios iniciais e finais, mas largamente negligenciável durante o estágio intermediário. Consequentemente, propomos o FlowBlending, uma estratégia de amostragem multi-modelo consciente do estágio que emprega um modelo grande e um modelo pequeno nos estágios sensíveis à capacidade e nos estágios intermediários, respectivamente. Introduzimos ainda critérios simples para escolher os limites dos estágios e fornecemos uma análise de divergência de velocidade como um proxy eficaz para identificar regiões sensíveis à capacidade. Em LTX-Video (2B/13B) e WAN 2.1 (1.3B/14B), o FlowBlending alcança uma inferência até 1,65x mais rápida com 57,35% menos FLOPs, mantendo a fidelidade visual, a coerência temporal e o alinhamento semântico dos modelos grandes. O FlowBlending também é compatível com técnicas existentes de aceleração de amostragem, permitindo um acréscimo de velocidade de até 2x. A página do projeto está disponível em: https://jibin86.github.io/flowblending_project_page.
English
In this work, we show that the impact of model capacity varies across timesteps: it is crucial for the early and late stages but largely negligible during the intermediate stage. Accordingly, we propose FlowBlending, a stage-aware multi-model sampling strategy that employs a large model and a small model at capacity-sensitive stages and intermediate stages, respectively. We further introduce simple criteria to choose stage boundaries and provide a velocity-divergence analysis as an effective proxy for identifying capacity-sensitive regions. Across LTX-Video (2B/13B) and WAN 2.1 (1.3B/14B), FlowBlending achieves up to 1.65x faster inference with 57.35% fewer FLOPs, while maintaining the visual fidelity, temporal coherence, and semantic alignment of the large models. FlowBlending is also compatible with existing sampling-acceleration techniques, enabling up to 2x additional speedup. Project page is available at: https://jibin86.github.io/flowblending_project_page.
PDF73February 8, 2026