ChatPaper.aiChatPaper

Diffusion de faible à forte intensité avec réflexion

Weak-to-Strong Diffusion with Reflection

February 1, 2025
Auteurs: Lichen Bai, Masashi Sugiyama, Zeke Xie
cs.AI

Résumé

L'objectif des modèles génératifs de diffusion est d'aligner la distribution apprise avec la distribution des données réelles grâce à l'appariement de gradient de score. Cependant, les limitations inhérentes dans la qualité des données d'entraînement, les stratégies de modélisation et la conception architecturale entraînent un écart inévitable entre les sorties générées et les données réelles. Pour réduire cet écart, nous proposons la Diffusion de Faible à Forte (W2SD), un nouveau cadre qui utilise la différence estimée entre les modèles faibles et forts existants (c'est-à-dire, la différence de faible à forte) pour approximer l'écart entre un modèle idéal et un modèle fort. En employant une opération réfléchie qui alterne entre le débruitage et l'inversion avec la différence de faible à forte, nous comprenons théoriquement que W2SD guide les variables latentes le long des trajectoires d'échantillonnage vers les régions de la distribution des données réelles. W2SD est hautement flexible et largement applicable, permettant des améliorations diverses grâce à la sélection stratégique de paires de modèles de faible à fort (par exemple, DreamShaper vs. SD1.5, bons experts vs. mauvais experts dans MoE). Des expériences approfondies démontrent que W2SD améliore significativement la préférence humaine, la qualité esthétique et l'adhérence à la demande, atteignant des performances de pointe dans diverses modalités (par exemple, image, vidéo), architectures (par exemple, basées sur UNet, DiT, MoE) et benchmarks. Par exemple, Juggernaut-XL avec W2SD peut améliorer le taux de réussite de HPSv2 jusqu'à 90% par rapport aux résultats originaux. De plus, les gains de performance obtenus par W2SD surpassent nettement ses coûts computationnels supplémentaires, tandis que les améliorations cumulatives provenant des différentes différences de faible à fort renforcent davantage son utilité pratique et son déploiement.
English
The goal of diffusion generative models is to align the learned distribution with the real data distribution through gradient score matching. However, inherent limitations in training data quality, modeling strategies, and architectural design lead to inevitable gap between generated outputs and real data. To reduce this gap, we propose Weak-to-Strong Diffusion (W2SD), a novel framework that utilizes the estimated difference between existing weak and strong models (i.e., weak-to-strong difference) to approximate the gap between an ideal model and a strong model. By employing a reflective operation that alternates between denoising and inversion with weak-to-strong difference, we theoretically understand that W2SD steers latent variables along sampling trajectories toward regions of the real data distribution. W2SD is highly flexible and broadly applicable, enabling diverse improvements through the strategic selection of weak-to-strong model pairs (e.g., DreamShaper vs. SD1.5, good experts vs. bad experts in MoE). Extensive experiments demonstrate that W2SD significantly improves human preference, aesthetic quality, and prompt adherence, achieving SOTA performance across various modalities (e.g., image, video), architectures (e.g., UNet-based, DiT-based, MoE), and benchmarks. For example, Juggernaut-XL with W2SD can improve with the HPSv2 winning rate up to 90% over the original results. Moreover, the performance gains achieved by W2SD markedly outweigh its additional computational overhead, while the cumulative improvements from different weak-to-strong difference further solidify its practical utility and deployability.

Summary

AI-Generated Summary

PDF232February 7, 2025