反射を伴う弱から強への拡散
Weak-to-Strong Diffusion with Reflection
February 1, 2025
著者: Lichen Bai, Masashi Sugiyama, Zeke Xie
cs.AI
要旨
拡散生成モデルの目標は、勾配スコアマッチングを通じて学習された分布を実データ分布と整合させることです。ただし、訓練データの品質、モデリング戦略、およびアーキテクチャ設計の固有の制限により、生成された出力と実データとの間に避けられないギャップが生じます。このギャップを縮小するために、既存の弱モデルと強モデルの推定された差(つまり、弱から強への差)を利用して理想モデルと強モデルの間のギャップを近似する革新的なフレームワークであるWeak-to-Strong Diffusion(W2SD)を提案します。弱から強への差を用いたdenoisingとinversionを交互に行う反射操作を採用することで、理論的にW2SDは潜在変数をリアルデータ分布の領域に向かうサンプリング軌跡に沿って誘導することが理解されます。W2SDは非常に柔軟で広範囲に適用可能であり、弱から強のモデルペア(例:DreamShaper vs. SD1.5、MoE内の優れた専門家 vs. 低品質専門家)の戦略的選択を通じて多様な改善を可能とします。包括的な実験により、W2SDは人間の好み、美的品質、およびプロンプトの遵守を大幅に向上させ、画像、ビデオなどさまざまなモダリティ(例:UNetベース、DiTベース、MoE)、アーキテクチャ、およびベンチマークでSOTAのパフォーマンスを達成します。たとえば、W2SDを使用したJuggernaut-XLは、元の結果に比べてHPSv2の勝率を最大90%向上させることができます。さらに、W2SDによって達成されたパフォーマンスの向上は、追加の計算オーバーヘッドを大幅に上回り、異なる弱から強への差からの累積的な改善がその実用性と展開性を一層確固たるものとしています。
English
The goal of diffusion generative models is to align the learned distribution
with the real data distribution through gradient score matching. However,
inherent limitations in training data quality, modeling strategies, and
architectural design lead to inevitable gap between generated outputs and real
data. To reduce this gap, we propose Weak-to-Strong Diffusion (W2SD), a novel
framework that utilizes the estimated difference between existing weak and
strong models (i.e., weak-to-strong difference) to approximate the gap between
an ideal model and a strong model. By employing a reflective operation that
alternates between denoising and inversion with weak-to-strong difference, we
theoretically understand that W2SD steers latent variables along sampling
trajectories toward regions of the real data distribution. W2SD is highly
flexible and broadly applicable, enabling diverse improvements through the
strategic selection of weak-to-strong model pairs (e.g., DreamShaper vs. SD1.5,
good experts vs. bad experts in MoE). Extensive experiments demonstrate that
W2SD significantly improves human preference, aesthetic quality, and prompt
adherence, achieving SOTA performance across various modalities (e.g., image,
video), architectures (e.g., UNet-based, DiT-based, MoE), and benchmarks. For
example, Juggernaut-XL with W2SD can improve with the HPSv2 winning rate up to
90% over the original results. Moreover, the performance gains achieved by W2SD
markedly outweigh its additional computational overhead, while the cumulative
improvements from different weak-to-strong difference further solidify its
practical utility and deployability.Summary
AI-Generated Summary