ChatPaper.aiChatPaper

反射を伴う弱から強への拡散

Weak-to-Strong Diffusion with Reflection

February 1, 2025
著者: Lichen Bai, Masashi Sugiyama, Zeke Xie
cs.AI

要旨

拡散生成モデルの目標は、勾配スコアマッチングを通じて学習された分布を実データ分布と整合させることです。ただし、訓練データの品質、モデリング戦略、およびアーキテクチャ設計の固有の制限により、生成された出力と実データとの間に避けられないギャップが生じます。このギャップを縮小するために、既存の弱モデルと強モデルの推定された差(つまり、弱から強への差)を利用して理想モデルと強モデルの間のギャップを近似する革新的なフレームワークであるWeak-to-Strong Diffusion(W2SD)を提案します。弱から強への差を用いたdenoisingとinversionを交互に行う反射操作を採用することで、理論的にW2SDは潜在変数をリアルデータ分布の領域に向かうサンプリング軌跡に沿って誘導することが理解されます。W2SDは非常に柔軟で広範囲に適用可能であり、弱から強のモデルペア(例:DreamShaper vs. SD1.5、MoE内の優れた専門家 vs. 低品質専門家)の戦略的選択を通じて多様な改善を可能とします。包括的な実験により、W2SDは人間の好み、美的品質、およびプロンプトの遵守を大幅に向上させ、画像、ビデオなどさまざまなモダリティ(例:UNetベース、DiTベース、MoE)、アーキテクチャ、およびベンチマークでSOTAのパフォーマンスを達成します。たとえば、W2SDを使用したJuggernaut-XLは、元の結果に比べてHPSv2の勝率を最大90%向上させることができます。さらに、W2SDによって達成されたパフォーマンスの向上は、追加の計算オーバーヘッドを大幅に上回り、異なる弱から強への差からの累積的な改善がその実用性と展開性を一層確固たるものとしています。
English
The goal of diffusion generative models is to align the learned distribution with the real data distribution through gradient score matching. However, inherent limitations in training data quality, modeling strategies, and architectural design lead to inevitable gap between generated outputs and real data. To reduce this gap, we propose Weak-to-Strong Diffusion (W2SD), a novel framework that utilizes the estimated difference between existing weak and strong models (i.e., weak-to-strong difference) to approximate the gap between an ideal model and a strong model. By employing a reflective operation that alternates between denoising and inversion with weak-to-strong difference, we theoretically understand that W2SD steers latent variables along sampling trajectories toward regions of the real data distribution. W2SD is highly flexible and broadly applicable, enabling diverse improvements through the strategic selection of weak-to-strong model pairs (e.g., DreamShaper vs. SD1.5, good experts vs. bad experts in MoE). Extensive experiments demonstrate that W2SD significantly improves human preference, aesthetic quality, and prompt adherence, achieving SOTA performance across various modalities (e.g., image, video), architectures (e.g., UNet-based, DiT-based, MoE), and benchmarks. For example, Juggernaut-XL with W2SD can improve with the HPSv2 winning rate up to 90% over the original results. Moreover, the performance gains achieved by W2SD markedly outweigh its additional computational overhead, while the cumulative improvements from different weak-to-strong difference further solidify its practical utility and deployability.

Summary

AI-Generated Summary

PDF232February 7, 2025