ChatPaper.aiChatPaper

FlowBlending: 高速かつ高精細なビデオ生成のための段階対応マルチモデルサンプリング

FlowBlending: Stage-Aware Multi-Model Sampling for Fast and High-Fidelity Video Generation

December 31, 2025
著者: Jibin Song, Mingi Kwon, Jaeseok Jeong, Youngjung Uh
cs.AI

要旨

本研究では、モデル容量の影響がタイムステップによって異なることを示す。特に初期段階と後期段階では容量が重要である一方、中間段階ではほぼ無視できることを明らかにした。これに基づき、容量感受性段階では大規模モデルを、中間段階では小規模モデルをそれぞれ用いる段階対応型マルチモデルサンプリング戦略「FlowBlending」を提案する。さらに、段階境界を選択する簡便な基準を導入し、容量感受性領域を特定する効果的な代理指標として速度発散解析を提供する。LTX-Video (2B/13B) とWAN 2.1 (1.3B/14B) での実験により、FlowBlendingは大規模モデルと同等の視覚的品質、時間的一貫性、意味的整合性を維持しつつ、推論速度を最大1.65倍、FLOPsを57.35%削減できることを実証した。本手法は既存のサンプリング高速化技術とも互換性があり、最大2倍の追加高速化が可能である。プロジェクトページはhttps://jibin86.github.io/flowblending_project_pageで公開されている。
English
In this work, we show that the impact of model capacity varies across timesteps: it is crucial for the early and late stages but largely negligible during the intermediate stage. Accordingly, we propose FlowBlending, a stage-aware multi-model sampling strategy that employs a large model and a small model at capacity-sensitive stages and intermediate stages, respectively. We further introduce simple criteria to choose stage boundaries and provide a velocity-divergence analysis as an effective proxy for identifying capacity-sensitive regions. Across LTX-Video (2B/13B) and WAN 2.1 (1.3B/14B), FlowBlending achieves up to 1.65x faster inference with 57.35% fewer FLOPs, while maintaining the visual fidelity, temporal coherence, and semantic alignment of the large models. FlowBlending is also compatible with existing sampling-acceleration techniques, enabling up to 2x additional speedup. Project page is available at: https://jibin86.github.io/flowblending_project_page.
PDF22January 3, 2026