分解可能なフローマッチングによる漸進的生成の改善
Improving Progressive Generation with Decomposable Flow Matching
June 24, 2025
著者: Moayed Haji-Ali, Willi Menapace, Ivan Skorokhodov, Arpit Sahni, Sergey Tulyakov, Vicente Ordonez, Aliaksandr Siarohin
cs.AI
要旨
高次元の視覚モダリティを生成することは計算集約的なタスクである。一般的な解決策として、出力を粗から細へとスペクトル自己回帰的に合成するプログレッシブ生成が用いられる。拡散モデルはノイズ除去の粗から細への性質を活用するが、明示的な多段階アーキテクチャはほとんど採用されていない。これらのアーキテクチャは全体のアプローチの複雑さを増し、カスタム拡散定式化、分解依存の段階遷移、アドホックなサンプラー、またはモデルカスケードの必要性を導入する。我々の貢献であるDecomposable Flow Matching(DFM)は、視覚メディアのプログレッシブ生成のためのシンプルで効果的なフレームワークである。DFMは、ユーザー定義のマルチスケール表現(例えばラプラシアンピラミッド)の各レベルで独立してFlow Matchingを適用する。実験により、我々のアプローチは画像と動画の両方で視覚品質を向上させ、従来の多段階フレームワークと比較して優れた結果を示すことが確認された。Imagenet-1k 512pxにおいて、DFMはベースアーキテクチャに対してFDDスコアで35.2%、最高性能のベースラインに対して26.4%の改善を達成し、同じトレーニング計算量で実現した。FLUXのような大規模モデルのファインチューニングに適用すると、DFMはトレーニング分布への収束速度が速いことが示された。重要な点として、これらの利点は単一のモデル、アーキテクチャの簡潔さ、既存のトレーニングパイプラインへの最小限の変更で達成されている。
English
Generating high-dimensional visual modalities is a computationally intensive
task. A common solution is progressive generation, where the outputs are
synthesized in a coarse-to-fine spectral autoregressive manner. While diffusion
models benefit from the coarse-to-fine nature of denoising, explicit
multi-stage architectures are rarely adopted. These architectures have
increased the complexity of the overall approach, introducing the need for a
custom diffusion formulation, decomposition-dependent stage transitions,
add-hoc samplers, or a model cascade. Our contribution, Decomposable Flow
Matching (DFM), is a simple and effective framework for the progressive
generation of visual media. DFM applies Flow Matching independently at each
level of a user-defined multi-scale representation (such as Laplacian pyramid).
As shown by our experiments, our approach improves visual quality for both
images and videos, featuring superior results compared to prior multistage
frameworks. On Imagenet-1k 512px, DFM achieves 35.2% improvements in FDD scores
over the base architecture and 26.4% over the best-performing baseline, under
the same training compute. When applied to finetuning of large models, such as
FLUX, DFM shows faster convergence speed to the training distribution.
Crucially, all these advantages are achieved with a single model, architectural
simplicity, and minimal modifications to existing training pipelines.