FlowBlending: Stadiaal-Bewuste Multi-Model Steekproefname voor Snelle en Hoogwaardige Videogeneratie
FlowBlending: Stage-Aware Multi-Model Sampling for Fast and High-Fidelity Video Generation
December 31, 2025
Auteurs: Jibin Song, Mingi Kwon, Jaeseok Jeong, Youngjung Uh
cs.AI
Samenvatting
In dit werk tonen we aan dat de impact van modelcapaciteit varieert tussen tijdstappen: deze is cruciaal in de vroege en late fasen, maar grotendeels verwaarloosbaar tijdens de tussenliggende fase. Dienovereenkomstig stellen we FlowBlending voor, een fasebewuste multi-model samplingstrategie die respectievelijk een groot model en een klein model inzet tijdens capaciteitsgevoelige fasen en tussenliggende fasen. We introduceren verder eenvoudige criteria om fasegrenzen te kiezen en bieden een velocity-divergentie-analyse als een effectieve proxy voor het identificeren van capaciteitsgevoelige regio's. Op LTX-Video (2B/13B) en WAN 2.1 (1.3B/14B) bereikt FlowBlending tot 1,65x snellere inferentie met 57,35% minder FLOPs, waarbij de visuele kwaliteit, temporele coherentie en semantische uitlijning van de grote modellen behouden blijven. FlowBlending is ook compatibel met bestaande samplingversnellings-technieken, wat een extra versnelling tot 2x mogelijk maakt. De projectpagina is beschikbaar op: https://jibin86.github.io/flowblending_project_page.
English
In this work, we show that the impact of model capacity varies across timesteps: it is crucial for the early and late stages but largely negligible during the intermediate stage. Accordingly, we propose FlowBlending, a stage-aware multi-model sampling strategy that employs a large model and a small model at capacity-sensitive stages and intermediate stages, respectively. We further introduce simple criteria to choose stage boundaries and provide a velocity-divergence analysis as an effective proxy for identifying capacity-sensitive regions. Across LTX-Video (2B/13B) and WAN 2.1 (1.3B/14B), FlowBlending achieves up to 1.65x faster inference with 57.35% fewer FLOPs, while maintaining the visual fidelity, temporal coherence, and semantic alignment of the large models. FlowBlending is also compatible with existing sampling-acceleration techniques, enabling up to 2x additional speedup. Project page is available at: https://jibin86.github.io/flowblending_project_page.