Diffusione da Debole a Forte con Riflessione
Weak-to-Strong Diffusion with Reflection
February 1, 2025
Autori: Lichen Bai, Masashi Sugiyama, Zeke Xie
cs.AI
Abstract
L'obiettivo dei modelli generativi a diffusione è allineare la distribuzione appresa con la distribuzione dei dati reali attraverso il matching del gradiente dei punteggi. Tuttavia, limitazioni intrinseche nella qualità dei dati di addestramento, nelle strategie di modellazione e nel design architetturale portano inevitabilmente a una discrepanza tra le uscite generate e i dati reali. Per ridurre questa discrepanza, proponiamo la Diffusione da Debole a Forte (W2SD), un nuovo framework che utilizza la differenza stimata tra modelli deboli e forti esistenti (cioè, la differenza da debole a forte) per approssimare la discrepanza tra un modello ideale e un modello forte. Impiegando un'operazione riflessiva che alterna tra denoising e inversione con la differenza da debole a forte, comprendiamo teoricamente che W2SD guida le variabili latenti lungo traiettorie di campionamento verso regioni della distribuzione dei dati reali. W2SD è altamente flessibile e ampiamente applicabile, consentendo miglioramenti diversificati attraverso la selezione strategica di coppie di modelli da deboli a forti (ad esempio, DreamShaper vs. SD1.5, buoni esperti vs. cattivi esperti in MoE). Estesi esperimenti dimostrano che W2SD migliora significativamente la preferenza umana, la qualità estetica e l'aderenza alla richiesta, raggiungendo prestazioni di punta in varie modalità (ad esempio, immagine, video), architetture (ad esempio, basate su UNet, basate su DiT, MoE) e benchmark. Ad esempio, Juggernaut-XL con W2SD può migliorare il tasso di vincita di HPSv2 fino al 90% rispetto ai risultati originali. Inoltre, i miglioramenti delle prestazioni ottenuti da W2SD superano notevolmente il suo overhead computazionale aggiuntivo, mentre i miglioramenti cumulativi dalle diverse differenze da debole a forte consolidano ulteriormente la sua utilità pratica e la sua capacità di implementazione.
English
The goal of diffusion generative models is to align the learned distribution
with the real data distribution through gradient score matching. However,
inherent limitations in training data quality, modeling strategies, and
architectural design lead to inevitable gap between generated outputs and real
data. To reduce this gap, we propose Weak-to-Strong Diffusion (W2SD), a novel
framework that utilizes the estimated difference between existing weak and
strong models (i.e., weak-to-strong difference) to approximate the gap between
an ideal model and a strong model. By employing a reflective operation that
alternates between denoising and inversion with weak-to-strong difference, we
theoretically understand that W2SD steers latent variables along sampling
trajectories toward regions of the real data distribution. W2SD is highly
flexible and broadly applicable, enabling diverse improvements through the
strategic selection of weak-to-strong model pairs (e.g., DreamShaper vs. SD1.5,
good experts vs. bad experts in MoE). Extensive experiments demonstrate that
W2SD significantly improves human preference, aesthetic quality, and prompt
adherence, achieving SOTA performance across various modalities (e.g., image,
video), architectures (e.g., UNet-based, DiT-based, MoE), and benchmarks. For
example, Juggernaut-XL with W2SD can improve with the HPSv2 winning rate up to
90% over the original results. Moreover, the performance gains achieved by W2SD
markedly outweigh its additional computational overhead, while the cumulative
improvements from different weak-to-strong difference further solidify its
practical utility and deployability.Summary
AI-Generated Summary