Diffusion de faible à forte intensité avec réflexion
Weak-to-Strong Diffusion with Reflection
February 1, 2025
Auteurs: Lichen Bai, Masashi Sugiyama, Zeke Xie
cs.AI
Résumé
L'objectif des modèles génératifs de diffusion est d'aligner la distribution apprise avec la distribution des données réelles grâce à l'appariement de gradient de score. Cependant, les limitations inhérentes dans la qualité des données d'entraînement, les stratégies de modélisation et la conception architecturale entraînent un écart inévitable entre les sorties générées et les données réelles. Pour réduire cet écart, nous proposons la Diffusion de Faible à Forte (W2SD), un nouveau cadre qui utilise la différence estimée entre les modèles faibles et forts existants (c'est-à-dire, la différence de faible à forte) pour approximer l'écart entre un modèle idéal et un modèle fort. En employant une opération réfléchie qui alterne entre le débruitage et l'inversion avec la différence de faible à forte, nous comprenons théoriquement que W2SD guide les variables latentes le long des trajectoires d'échantillonnage vers les régions de la distribution des données réelles. W2SD est hautement flexible et largement applicable, permettant des améliorations diverses grâce à la sélection stratégique de paires de modèles de faible à fort (par exemple, DreamShaper vs. SD1.5, bons experts vs. mauvais experts dans MoE). Des expériences approfondies démontrent que W2SD améliore significativement la préférence humaine, la qualité esthétique et l'adhérence à la demande, atteignant des performances de pointe dans diverses modalités (par exemple, image, vidéo), architectures (par exemple, basées sur UNet, DiT, MoE) et benchmarks. Par exemple, Juggernaut-XL avec W2SD peut améliorer le taux de réussite de HPSv2 jusqu'à 90% par rapport aux résultats originaux. De plus, les gains de performance obtenus par W2SD surpassent nettement ses coûts computationnels supplémentaires, tandis que les améliorations cumulatives provenant des différentes différences de faible à fort renforcent davantage son utilité pratique et son déploiement.
English
The goal of diffusion generative models is to align the learned distribution
with the real data distribution through gradient score matching. However,
inherent limitations in training data quality, modeling strategies, and
architectural design lead to inevitable gap between generated outputs and real
data. To reduce this gap, we propose Weak-to-Strong Diffusion (W2SD), a novel
framework that utilizes the estimated difference between existing weak and
strong models (i.e., weak-to-strong difference) to approximate the gap between
an ideal model and a strong model. By employing a reflective operation that
alternates between denoising and inversion with weak-to-strong difference, we
theoretically understand that W2SD steers latent variables along sampling
trajectories toward regions of the real data distribution. W2SD is highly
flexible and broadly applicable, enabling diverse improvements through the
strategic selection of weak-to-strong model pairs (e.g., DreamShaper vs. SD1.5,
good experts vs. bad experts in MoE). Extensive experiments demonstrate that
W2SD significantly improves human preference, aesthetic quality, and prompt
adherence, achieving SOTA performance across various modalities (e.g., image,
video), architectures (e.g., UNet-based, DiT-based, MoE), and benchmarks. For
example, Juggernaut-XL with W2SD can improve with the HPSv2 winning rate up to
90% over the original results. Moreover, the performance gains achieved by W2SD
markedly outweigh its additional computational overhead, while the cumulative
improvements from different weak-to-strong difference further solidify its
practical utility and deployability.Summary
AI-Generated Summary