Diffusion-SDPO: Защищенная оптимизация прямых предпочтений для диффузионных моделей
Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models
November 5, 2025
Авторы: Minghao Fu, Guo-Hua Wang, Tianyu Cui, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
Аннотация
Диффузионные модели для генерации изображений по тексту позволяют получать высококачественные изображения, однако их согласование с человеческими предпочтениями остается сложной задачей. Мы возвращаемся к диффузионному методу прямого оптимизации предпочтений (DPO) для таких моделей и выявляем ключевую проблему: увеличение разрыва в предпочтениях не обязательно приводит к улучшению качества генерации. В частности, стандартная цель Diffusion-DPO может увеличивать ошибку реконструкции как для "победившей", так и для "проигравшей" ветвей. Как следствие, деградация менее предпочтительных результатов может стать настолько значительной, что предпочтительная ветвь также начинает страдать даже при росте разрыва. Для решения этой проблемы мы представляем Diffusion-SDPO — защищенное правило обновления, которое сохраняет "победителя" за счет адаптивного масштабирования градиента "проигравшего" в соответствии с его согласованностью с градиентом "победителя". Анализ первого порядка дает замкнутый коэффициент масштабирования, гарантирующий, что ошибка предпочтительного результата не возрастает на каждом шаге оптимизации. Наш метод прост, не зависит от модели, широко совместим с существующими рамками согласования в стиле DPO и добавляет лишь незначительные вычислительные затраты. На стандартных текстово-визуальных бенчмарках Diffusion-SDPO демонстрирует стабильное превосходство над базовыми методами обучения с предпочтениями по автоматизированным метрикам предпочтений, эстетики и соответствия промпту. Код общедоступен по адресу https://github.com/AIDC-AI/Diffusion-SDPO.
English
Text-to-image diffusion models deliver high-quality images, yet aligning them
with human preferences remains challenging. We revisit diffusion-based Direct
Preference Optimization (DPO) for these models and identify a critical
pathology: enlarging the preference margin does not necessarily improve
generation quality. In particular, the standard Diffusion-DPO objective can
increase the reconstruction error of both winner and loser branches.
Consequently, degradation of the less-preferred outputs can become sufficiently
severe that the preferred branch is also adversely affected even as the margin
grows. To address this, we introduce Diffusion-SDPO, a safeguarded update rule
that preserves the winner by adaptively scaling the loser gradient according to
its alignment with the winner gradient. A first-order analysis yields a
closed-form scaling coefficient that guarantees the error of the preferred
output is non-increasing at each optimization step. Our method is simple,
model-agnostic, broadly compatible with existing DPO-style alignment frameworks
and adds only marginal computational overhead. Across standard text-to-image
benchmarks, Diffusion-SDPO delivers consistent gains over preference-learning
baselines on automated preference, aesthetic, and prompt alignment metrics.
Code is publicly available at https://github.com/AIDC-AI/Diffusion-SDPO.