Слабое-к-Сильному Диффузия с Отражением
Weak-to-Strong Diffusion with Reflection
February 1, 2025
Авторы: Lichen Bai, Masashi Sugiyama, Zeke Xie
cs.AI
Аннотация
Целью диффузионных генеративных моделей является согласование изученного распределения с реальным распределением данных путем градиентного сопоставления оценок. Однако встроенные ограничения в качестве обучающих данных, стратегии моделирования и архитектурное проектирование приводят к неизбежному разрыву между сгенерированными результатами и реальными данными. Для уменьшения этого разрыва мы предлагаем Weak-to-Strong Diffusion (W2SD), новую концепцию, которая использует оцененное различие между существующими слабыми и сильными моделями (т.е. разницу от слабого к сильному) для приближения разрыва между идеальной моделью и сильной моделью. Применяя отражательную операцию, которая чередует денойзинг и инверсию с разницей от слабого к сильному, мы теоретически понимаем, что W2SD направляет латентные переменные вдоль траекторий выборки к областям реального распределения данных. W2SD является высоко гибким и широко применимым, обеспечивая разнообразные улучшения через стратегический выбор пар слабых и сильных моделей (например, DreamShaper против SD1.5, хорошие эксперты против плохих экспертов в MoE). Обширные эксперименты показывают, что W2SD значительно улучшает предпочтения человека, эстетическое качество и соблюдение инструкций, достигая лучших результатов по различным модальностям (например, изображения, видео), архитектурам (например, на основе UNet, DiT, MoE) и бенчмаркам. Например, Juggernaut-XL с W2SD может увеличить победный процент HPSv2 до 90% по сравнению с оригинальными результатами. Более того, прирост производительности, достигнутый благодаря W2SD, значительно превышает дополнительные вычислительные затраты, в то время как накопленные улучшения от различий между слабыми и сильными моделями дополнительно укрепляют его практическую полезность и применимость.
English
The goal of diffusion generative models is to align the learned distribution
with the real data distribution through gradient score matching. However,
inherent limitations in training data quality, modeling strategies, and
architectural design lead to inevitable gap between generated outputs and real
data. To reduce this gap, we propose Weak-to-Strong Diffusion (W2SD), a novel
framework that utilizes the estimated difference between existing weak and
strong models (i.e., weak-to-strong difference) to approximate the gap between
an ideal model and a strong model. By employing a reflective operation that
alternates between denoising and inversion with weak-to-strong difference, we
theoretically understand that W2SD steers latent variables along sampling
trajectories toward regions of the real data distribution. W2SD is highly
flexible and broadly applicable, enabling diverse improvements through the
strategic selection of weak-to-strong model pairs (e.g., DreamShaper vs. SD1.5,
good experts vs. bad experts in MoE). Extensive experiments demonstrate that
W2SD significantly improves human preference, aesthetic quality, and prompt
adherence, achieving SOTA performance across various modalities (e.g., image,
video), architectures (e.g., UNet-based, DiT-based, MoE), and benchmarks. For
example, Juggernaut-XL with W2SD can improve with the HPSv2 winning rate up to
90% over the original results. Moreover, the performance gains achieved by W2SD
markedly outweigh its additional computational overhead, while the cumulative
improvements from different weak-to-strong difference further solidify its
practical utility and deployability.Summary
AI-Generated Summary