ChatPaper.aiChatPaper

FlowBlending: Campionamento Multi-Modello Consapevole dello Stadio per una Generazione Video Veloce e ad Alta Fedeltà

FlowBlending: Stage-Aware Multi-Model Sampling for Fast and High-Fidelity Video Generation

December 31, 2025
Autori: Jibin Song, Mingi Kwon, Jaeseok Jeong, Youngjung Uh
cs.AI

Abstract

In questo lavoro, dimostriamo che l'impatto della capacità del modello varia in base ai timestep: è cruciale nelle fasi iniziali e finali, ma largamente trascurabile durante la fase intermedia. Di conseguenza, proponiamo FlowBlending, una strategia di campionamento multi-modello consapevole della fase, che impiega un modello di grandi dimensioni e uno di piccole dimensioni rispettivamente nelle fasi sensibili alla capacità e nelle fasi intermedie. Introduciamo inoltre criteri semplici per scegliere i confini di fase e forniamo un'analisi di divergenza della velocità come proxy efficace per identificare le regioni sensibili alla capacità. Su LTX-Video (2B/13B) e WAN 2.1 (1.3B/14B), FlowBlending raggiunge un'inferenza fino a 1.65 volte più veloce con il 57.35% in meno di FLOP, mantenendo al contempo la fedeltà visiva, la coerenza temporale e l'allineamento semantico dei modelli di grandi dimensioni. FlowBlending è anche compatibile con le tecniche esistenti di accelerazione del campionamento, consentendo un'ulteriore accelerazione fino a 2 volte. La pagina del progetto è disponibile all'indirizzo: https://jibin86.github.io/flowblending_project_page.
English
In this work, we show that the impact of model capacity varies across timesteps: it is crucial for the early and late stages but largely negligible during the intermediate stage. Accordingly, we propose FlowBlending, a stage-aware multi-model sampling strategy that employs a large model and a small model at capacity-sensitive stages and intermediate stages, respectively. We further introduce simple criteria to choose stage boundaries and provide a velocity-divergence analysis as an effective proxy for identifying capacity-sensitive regions. Across LTX-Video (2B/13B) and WAN 2.1 (1.3B/14B), FlowBlending achieves up to 1.65x faster inference with 57.35% fewer FLOPs, while maintaining the visual fidelity, temporal coherence, and semantic alignment of the large models. FlowBlending is also compatible with existing sampling-acceleration techniques, enabling up to 2x additional speedup. Project page is available at: https://jibin86.github.io/flowblending_project_page.
PDF73February 8, 2026