ChatPaper.aiChatPaper

Difusão Fraca-para-Forte com Reflexão

Weak-to-Strong Diffusion with Reflection

February 1, 2025
Autores: Lichen Bai, Masashi Sugiyama, Zeke Xie
cs.AI

Resumo

O objetivo dos modelos generativos de difusão é alinhar a distribuição aprendida com a distribuição real dos dados por meio do casamento de escores de gradiente. No entanto, limitações inerentes na qualidade dos dados de treinamento, estratégias de modelagem e design arquitetônico levam a uma lacuna inevitável entre as saídas geradas e os dados reais. Para reduzir essa lacuna, propomos a Difusão de Fraco para Forte (W2SD), um novo framework que utiliza a diferença estimada entre modelos fracos e fortes existentes (ou seja, diferença de fraco para forte) para aproximar a lacuna entre um modelo ideal e um modelo forte. Ao empregar uma operação reflexiva que alterna entre remoção de ruído e inversão com a diferença de fraco para forte, entendemos teoricamente que o W2SD direciona as variáveis latentes ao longo de trajetórias de amostragem em direção às regiões da distribuição real dos dados. O W2SD é altamente flexível e amplamente aplicável, permitindo diversas melhorias por meio da seleção estratégica de pares de modelos fraco-forte (por exemplo, DreamShaper vs. SD1.5, bons especialistas vs. maus especialistas em MoE). Experimentos extensos demonstram que o W2SD melhora significativamente a preferência humana, a qualidade estética e a adesão à solicitação, alcançando desempenho de última geração em várias modalidades (por exemplo, imagem, vídeo), arquiteturas (por exemplo, baseadas em UNet, baseadas em DiT, MoE) e benchmarks. Por exemplo, o Juggernaut-XL com W2SD pode melhorar a taxa de vitória do HPSv2 em até 90% em relação aos resultados originais. Além disso, os ganhos de desempenho alcançados pelo W2SD superam significativamente seus custos computacionais adicionais, enquanto as melhorias cumulativas advindas das diferentes diferenças de fraco para forte solidificam ainda mais sua utilidade prática e implementabilidade.
English
The goal of diffusion generative models is to align the learned distribution with the real data distribution through gradient score matching. However, inherent limitations in training data quality, modeling strategies, and architectural design lead to inevitable gap between generated outputs and real data. To reduce this gap, we propose Weak-to-Strong Diffusion (W2SD), a novel framework that utilizes the estimated difference between existing weak and strong models (i.e., weak-to-strong difference) to approximate the gap between an ideal model and a strong model. By employing a reflective operation that alternates between denoising and inversion with weak-to-strong difference, we theoretically understand that W2SD steers latent variables along sampling trajectories toward regions of the real data distribution. W2SD is highly flexible and broadly applicable, enabling diverse improvements through the strategic selection of weak-to-strong model pairs (e.g., DreamShaper vs. SD1.5, good experts vs. bad experts in MoE). Extensive experiments demonstrate that W2SD significantly improves human preference, aesthetic quality, and prompt adherence, achieving SOTA performance across various modalities (e.g., image, video), architectures (e.g., UNet-based, DiT-based, MoE), and benchmarks. For example, Juggernaut-XL with W2SD can improve with the HPSv2 winning rate up to 90% over the original results. Moreover, the performance gains achieved by W2SD markedly outweigh its additional computational overhead, while the cumulative improvements from different weak-to-strong difference further solidify its practical utility and deployability.

Summary

AI-Generated Summary

PDF232February 7, 2025