Difusão Fraca-para-Forte com Reflexão
Weak-to-Strong Diffusion with Reflection
February 1, 2025
Autores: Lichen Bai, Masashi Sugiyama, Zeke Xie
cs.AI
Resumo
O objetivo dos modelos generativos de difusão é alinhar a distribuição aprendida com a distribuição real dos dados por meio do casamento de escores de gradiente. No entanto, limitações inerentes na qualidade dos dados de treinamento, estratégias de modelagem e design arquitetônico levam a uma lacuna inevitável entre as saídas geradas e os dados reais. Para reduzir essa lacuna, propomos a Difusão de Fraco para Forte (W2SD), um novo framework que utiliza a diferença estimada entre modelos fracos e fortes existentes (ou seja, diferença de fraco para forte) para aproximar a lacuna entre um modelo ideal e um modelo forte. Ao empregar uma operação reflexiva que alterna entre remoção de ruído e inversão com a diferença de fraco para forte, entendemos teoricamente que o W2SD direciona as variáveis latentes ao longo de trajetórias de amostragem em direção às regiões da distribuição real dos dados. O W2SD é altamente flexível e amplamente aplicável, permitindo diversas melhorias por meio da seleção estratégica de pares de modelos fraco-forte (por exemplo, DreamShaper vs. SD1.5, bons especialistas vs. maus especialistas em MoE). Experimentos extensos demonstram que o W2SD melhora significativamente a preferência humana, a qualidade estética e a adesão à solicitação, alcançando desempenho de última geração em várias modalidades (por exemplo, imagem, vídeo), arquiteturas (por exemplo, baseadas em UNet, baseadas em DiT, MoE) e benchmarks. Por exemplo, o Juggernaut-XL com W2SD pode melhorar a taxa de vitória do HPSv2 em até 90% em relação aos resultados originais. Além disso, os ganhos de desempenho alcançados pelo W2SD superam significativamente seus custos computacionais adicionais, enquanto as melhorias cumulativas advindas das diferentes diferenças de fraco para forte solidificam ainda mais sua utilidade prática e implementabilidade.
English
The goal of diffusion generative models is to align the learned distribution
with the real data distribution through gradient score matching. However,
inherent limitations in training data quality, modeling strategies, and
architectural design lead to inevitable gap between generated outputs and real
data. To reduce this gap, we propose Weak-to-Strong Diffusion (W2SD), a novel
framework that utilizes the estimated difference between existing weak and
strong models (i.e., weak-to-strong difference) to approximate the gap between
an ideal model and a strong model. By employing a reflective operation that
alternates between denoising and inversion with weak-to-strong difference, we
theoretically understand that W2SD steers latent variables along sampling
trajectories toward regions of the real data distribution. W2SD is highly
flexible and broadly applicable, enabling diverse improvements through the
strategic selection of weak-to-strong model pairs (e.g., DreamShaper vs. SD1.5,
good experts vs. bad experts in MoE). Extensive experiments demonstrate that
W2SD significantly improves human preference, aesthetic quality, and prompt
adherence, achieving SOTA performance across various modalities (e.g., image,
video), architectures (e.g., UNet-based, DiT-based, MoE), and benchmarks. For
example, Juggernaut-XL with W2SD can improve with the HPSv2 winning rate up to
90% over the original results. Moreover, the performance gains achieved by W2SD
markedly outweigh its additional computational overhead, while the cumulative
improvements from different weak-to-strong difference further solidify its
practical utility and deployability.Summary
AI-Generated Summary