Zwak-naar-Sterke Diffusie met Reflectie
Weak-to-Strong Diffusion with Reflection
February 1, 2025
Auteurs: Lichen Bai, Masashi Sugiyama, Zeke Xie
cs.AI
Samenvatting
Het doel van diffusie generatieve modellen is om de geleerde verdeling af te stemmen op de werkelijke gegevensverdeling door middel van gradient score matching. Echter, inherente beperkingen in de kwaliteit van trainingsgegevens, modelleringsstrategieën en architectonisch ontwerp leiden tot een onvermijdelijke kloof tussen gegenereerde resultaten en echte gegevens. Om deze kloof te verkleinen, stellen we Weak-to-Strong Diffusion (W2SD) voor, een nieuw raamwerk dat gebruikmaakt van het geschatte verschil tussen bestaande zwakke en sterke modellen (d.w.z. zwak-naar-sterk verschil) om de kloof tussen een ideaal model en een sterk model te benaderen. Door het gebruik van een reflectieve operatie die afwisselt tussen denoising en inversie met zwak-naar-sterk verschil, begrijpen we theoretisch dat W2SD latente variabelen langs bemonsteringstrajecten stuurt naar regio's van de werkelijke gegevensverdeling. W2SD is zeer flexibel en breed toepasbaar, waardoor diverse verbeteringen mogelijk zijn door de strategische selectie van zwak-naar-sterk modelparen (bijv. DreamShaper vs. SD1.5, goede experts vs. slechte experts in MoE). Uitgebreide experimenten tonen aan dat W2SD aanzienlijke verbeteringen oplevert in menselijke voorkeur, esthetische kwaliteit en prompt naleving, met SOTA-prestaties op verschillende modaliteiten (bijv. afbeelding, video), architecturen (bijv. op UNet gebaseerd, DiT-gebaseerd, MoE) en benchmarks. Bijvoorbeeld kan Juggernaut-XL met W2SD de winst van HPSv2 tot 90% verbeteren ten opzichte van de oorspronkelijke resultaten. Bovendien wegen de prestatiewinsten die met W2SD worden behaald aanzienlijk op tegen de extra rekenkundige overhead, terwijl de cumulatieve verbeteringen van verschillende zwak-naar-sterk verschillen de praktische bruikbaarheid en implementeerbaarheid verder versterken.
English
The goal of diffusion generative models is to align the learned distribution
with the real data distribution through gradient score matching. However,
inherent limitations in training data quality, modeling strategies, and
architectural design lead to inevitable gap between generated outputs and real
data. To reduce this gap, we propose Weak-to-Strong Diffusion (W2SD), a novel
framework that utilizes the estimated difference between existing weak and
strong models (i.e., weak-to-strong difference) to approximate the gap between
an ideal model and a strong model. By employing a reflective operation that
alternates between denoising and inversion with weak-to-strong difference, we
theoretically understand that W2SD steers latent variables along sampling
trajectories toward regions of the real data distribution. W2SD is highly
flexible and broadly applicable, enabling diverse improvements through the
strategic selection of weak-to-strong model pairs (e.g., DreamShaper vs. SD1.5,
good experts vs. bad experts in MoE). Extensive experiments demonstrate that
W2SD significantly improves human preference, aesthetic quality, and prompt
adherence, achieving SOTA performance across various modalities (e.g., image,
video), architectures (e.g., UNet-based, DiT-based, MoE), and benchmarks. For
example, Juggernaut-XL with W2SD can improve with the HPSv2 winning rate up to
90% over the original results. Moreover, the performance gains achieved by W2SD
markedly outweigh its additional computational overhead, while the cumulative
improvements from different weak-to-strong difference further solidify its
practical utility and deployability.Summary
AI-Generated Summary