Слабое-к-Сильному Диффузия с Отражением

Аннотация

Целью диффузионных генеративных моделей является согласование изученного распределения с реальным распределением данных путем градиентного сопоставления оценок. Однако встроенные ограничения в качестве обучающих данных, стратегии моделирования и архитектурное проектирование приводят к неизбежному разрыву между сгенерированными результатами и реальными данными. Для уменьшения этого разрыва мы предлагаем Weak-to-Strong Diffusion (W2SD), новую концепцию, которая использует оцененное различие между существующими слабыми и сильными моделями (т.е. разницу от слабого к сильному) для приближения разрыва между идеальной моделью и сильной моделью. Применяя отражательную операцию, которая чередует денойзинг и инверсию с разницей от слабого к сильному, мы теоретически понимаем, что W2SD направляет латентные переменные вдоль траекторий выборки к областям реального распределения данных. W2SD является высоко гибким и широко применимым, обеспечивая разнообразные улучшения через стратегический выбор пар слабых и сильных моделей (например, DreamShaper против SD1.5, хорошие эксперты против плохих экспертов в MoE). Обширные эксперименты показывают, что W2SD значительно улучшает предпочтения человека, эстетическое качество и соблюдение инструкций, достигая лучших результатов по различным модальностям (например, изображения, видео), архитектурам (например, на основе UNet, DiT, MoE) и бенчмаркам. Например, Juggernaut-XL с W2SD может увеличить победный процент HPSv2 до 90% по сравнению с оригинальными результатами. Более того, прирост производительности, достигнутый благодаря W2SD, значительно превышает дополнительные вычислительные затраты, в то время как накопленные улучшения от различий между слабыми и сильными моделями дополнительно укрепляют его практическую полезность и применимость.

English

The goal of diffusion generative models is to align the learned distribution with the real data distribution through gradient score matching. However, inherent limitations in training data quality, modeling strategies, and architectural design lead to inevitable gap between generated outputs and real data. To reduce this gap, we propose Weak-to-Strong Diffusion (W2SD), a novel framework that utilizes the estimated difference between existing weak and strong models (i.e., weak-to-strong difference) to approximate the gap between an ideal model and a strong model. By employing a reflective operation that alternates between denoising and inversion with weak-to-strong difference, we theoretically understand that W2SD steers latent variables along sampling trajectories toward regions of the real data distribution. W2SD is highly flexible and broadly applicable, enabling diverse improvements through the strategic selection of weak-to-strong model pairs (e.g., DreamShaper vs. SD1.5, good experts vs. bad experts in MoE). Extensive experiments demonstrate that W2SD significantly improves human preference, aesthetic quality, and prompt adherence, achieving SOTA performance across various modalities (e.g., image, video), architectures (e.g., UNet-based, DiT-based, MoE), and benchmarks. For example, Juggernaut-XL with W2SD can improve with the HPSv2 winning rate up to 90% over the original results. Moreover, the performance gains achieved by W2SD markedly outweigh its additional computational overhead, while the cumulative improvements from different weak-to-strong difference further solidify its practical utility and deployability.

Слабое-к-Сильному Диффузия с Отражением

Weak-to-Strong Diffusion with Reflection

Аннотация

Support