Diffusione da Debole a Forte con Riflessione

Abstract

L'obiettivo dei modelli generativi a diffusione è allineare la distribuzione appresa con la distribuzione dei dati reali attraverso il matching del gradiente dei punteggi. Tuttavia, limitazioni intrinseche nella qualità dei dati di addestramento, nelle strategie di modellazione e nel design architetturale portano inevitabilmente a una discrepanza tra le uscite generate e i dati reali. Per ridurre questa discrepanza, proponiamo la Diffusione da Debole a Forte (W2SD), un nuovo framework che utilizza la differenza stimata tra modelli deboli e forti esistenti (cioè, la differenza da debole a forte) per approssimare la discrepanza tra un modello ideale e un modello forte. Impiegando un'operazione riflessiva che alterna tra denoising e inversione con la differenza da debole a forte, comprendiamo teoricamente che W2SD guida le variabili latenti lungo traiettorie di campionamento verso regioni della distribuzione dei dati reali. W2SD è altamente flessibile e ampiamente applicabile, consentendo miglioramenti diversificati attraverso la selezione strategica di coppie di modelli da deboli a forti (ad esempio, DreamShaper vs. SD1.5, buoni esperti vs. cattivi esperti in MoE). Estesi esperimenti dimostrano che W2SD migliora significativamente la preferenza umana, la qualità estetica e l'aderenza alla richiesta, raggiungendo prestazioni di punta in varie modalità (ad esempio, immagine, video), architetture (ad esempio, basate su UNet, basate su DiT, MoE) e benchmark. Ad esempio, Juggernaut-XL con W2SD può migliorare il tasso di vincita di HPSv2 fino al 90% rispetto ai risultati originali. Inoltre, i miglioramenti delle prestazioni ottenuti da W2SD superano notevolmente il suo overhead computazionale aggiuntivo, mentre i miglioramenti cumulativi dalle diverse differenze da debole a forte consolidano ulteriormente la sua utilità pratica e la sua capacità di implementazione.

English

The goal of diffusion generative models is to align the learned distribution with the real data distribution through gradient score matching. However, inherent limitations in training data quality, modeling strategies, and architectural design lead to inevitable gap between generated outputs and real data. To reduce this gap, we propose Weak-to-Strong Diffusion (W2SD), a novel framework that utilizes the estimated difference between existing weak and strong models (i.e., weak-to-strong difference) to approximate the gap between an ideal model and a strong model. By employing a reflective operation that alternates between denoising and inversion with weak-to-strong difference, we theoretically understand that W2SD steers latent variables along sampling trajectories toward regions of the real data distribution. W2SD is highly flexible and broadly applicable, enabling diverse improvements through the strategic selection of weak-to-strong model pairs (e.g., DreamShaper vs. SD1.5, good experts vs. bad experts in MoE). Extensive experiments demonstrate that W2SD significantly improves human preference, aesthetic quality, and prompt adherence, achieving SOTA performance across various modalities (e.g., image, video), architectures (e.g., UNet-based, DiT-based, MoE), and benchmarks. For example, Juggernaut-XL with W2SD can improve with the HPSv2 winning rate up to 90% over the original results. Moreover, the performance gains achieved by W2SD markedly outweigh its additional computational overhead, while the cumulative improvements from different weak-to-strong difference further solidify its practical utility and deployability.

Diffusione da Debole a Forte con Riflessione

Weak-to-Strong Diffusion with Reflection

Abstract

Support