FlowBlending: Stufenbewusstes Multi-Modell-Sampling für schnelle und hochwertige Videogenerierung
FlowBlending: Stage-Aware Multi-Model Sampling for Fast and High-Fidelity Video Generation
December 31, 2025
papers.authors: Jibin Song, Mingi Kwon, Jaeseok Jeong, Youngjung Uh
cs.AI
papers.abstract
In dieser Arbeit zeigen wir, dass sich der Einfluss der Modellkapazität über die Zeitschritte hinweg unterscheidet: Er ist in den frühen und späten Phasen entscheidend, während er in der intermediären Phase weitgehend vernachlässigbar ist. Dementsprechend schlagen wir FlowBlending vor, eine phasenbewusste Multi-Model-Sampling-Strategie, die in kapazitätssensitiven Phasen ein großes Modell und in intermediären Phasen ein kleines Modell einsetzt. Wir führen zudem einfache Kriterien zur Wahl der Phasengrenzen ein und bieten eine Velocity-Divergence-Analyse als effektiven Proxy zur Identifikation kapazitätssensitiver Bereiche. In Tests mit LTX-Video (2B/13B) und WAN 2.1 (1.3B/14B) erreicht FlowBlending eine bis zu 1,65-fach schnellere Inferenz bei 57,35 % weniger FLOPs, während die visuelle Qualität, zeitliche Kohärenz und semantische Übereinstimmung der großen Modelle erhalten bleibt. FlowBlending ist zudem kompatibel mit bestehenden Sampling-Beschleunigungstechniken und ermöglicht eine zusätzliche Beschleunigung von bis zu 2x. Die Projektseite ist verfügbar unter: https://jibin86.github.io/flowblending_project_page.
English
In this work, we show that the impact of model capacity varies across timesteps: it is crucial for the early and late stages but largely negligible during the intermediate stage. Accordingly, we propose FlowBlending, a stage-aware multi-model sampling strategy that employs a large model and a small model at capacity-sensitive stages and intermediate stages, respectively. We further introduce simple criteria to choose stage boundaries and provide a velocity-divergence analysis as an effective proxy for identifying capacity-sensitive regions. Across LTX-Video (2B/13B) and WAN 2.1 (1.3B/14B), FlowBlending achieves up to 1.65x faster inference with 57.35% fewer FLOPs, while maintaining the visual fidelity, temporal coherence, and semantic alignment of the large models. FlowBlending is also compatible with existing sampling-acceleration techniques, enabling up to 2x additional speedup. Project page is available at: https://jibin86.github.io/flowblending_project_page.