Zwak-naar-Sterke Diffusie met Reflectie

Samenvatting

Het doel van diffusie generatieve modellen is om de geleerde verdeling af te stemmen op de werkelijke gegevensverdeling door middel van gradient score matching. Echter, inherente beperkingen in de kwaliteit van trainingsgegevens, modelleringsstrategieën en architectonisch ontwerp leiden tot een onvermijdelijke kloof tussen gegenereerde resultaten en echte gegevens. Om deze kloof te verkleinen, stellen we Weak-to-Strong Diffusion (W2SD) voor, een nieuw raamwerk dat gebruikmaakt van het geschatte verschil tussen bestaande zwakke en sterke modellen (d.w.z. zwak-naar-sterk verschil) om de kloof tussen een ideaal model en een sterk model te benaderen. Door het gebruik van een reflectieve operatie die afwisselt tussen denoising en inversie met zwak-naar-sterk verschil, begrijpen we theoretisch dat W2SD latente variabelen langs bemonsteringstrajecten stuurt naar regio's van de werkelijke gegevensverdeling. W2SD is zeer flexibel en breed toepasbaar, waardoor diverse verbeteringen mogelijk zijn door de strategische selectie van zwak-naar-sterk modelparen (bijv. DreamShaper vs. SD1.5, goede experts vs. slechte experts in MoE). Uitgebreide experimenten tonen aan dat W2SD aanzienlijke verbeteringen oplevert in menselijke voorkeur, esthetische kwaliteit en prompt naleving, met SOTA-prestaties op verschillende modaliteiten (bijv. afbeelding, video), architecturen (bijv. op UNet gebaseerd, DiT-gebaseerd, MoE) en benchmarks. Bijvoorbeeld kan Juggernaut-XL met W2SD de winst van HPSv2 tot 90% verbeteren ten opzichte van de oorspronkelijke resultaten. Bovendien wegen de prestatiewinsten die met W2SD worden behaald aanzienlijk op tegen de extra rekenkundige overhead, terwijl de cumulatieve verbeteringen van verschillende zwak-naar-sterk verschillen de praktische bruikbaarheid en implementeerbaarheid verder versterken.

English

The goal of diffusion generative models is to align the learned distribution with the real data distribution through gradient score matching. However, inherent limitations in training data quality, modeling strategies, and architectural design lead to inevitable gap between generated outputs and real data. To reduce this gap, we propose Weak-to-Strong Diffusion (W2SD), a novel framework that utilizes the estimated difference between existing weak and strong models (i.e., weak-to-strong difference) to approximate the gap between an ideal model and a strong model. By employing a reflective operation that alternates between denoising and inversion with weak-to-strong difference, we theoretically understand that W2SD steers latent variables along sampling trajectories toward regions of the real data distribution. W2SD is highly flexible and broadly applicable, enabling diverse improvements through the strategic selection of weak-to-strong model pairs (e.g., DreamShaper vs. SD1.5, good experts vs. bad experts in MoE). Extensive experiments demonstrate that W2SD significantly improves human preference, aesthetic quality, and prompt adherence, achieving SOTA performance across various modalities (e.g., image, video), architectures (e.g., UNet-based, DiT-based, MoE), and benchmarks. For example, Juggernaut-XL with W2SD can improve with the HPSv2 winning rate up to 90% over the original results. Moreover, the performance gains achieved by W2SD markedly outweigh its additional computational overhead, while the cumulative improvements from different weak-to-strong difference further solidify its practical utility and deployability.

Zwak-naar-Sterke Diffusie met Reflectie

Weak-to-Strong Diffusion with Reflection

Samenvatting

Support