Diffusion-SDPO: 확산 모델을 위한 안전한 직접 선호도 최적화
Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models
November 5, 2025
저자: Minghao Fu, Guo-Hua Wang, Tianyu Cui, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
초록
텍스트-이미지 확산 모델은 고품질 이미지를 생성하지만, 이를 인간의 선호도와 정렬하는 것은 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 이러한 모델에 대한 확산 기반 직접 선호도 최적화(DPO)를 재검토하고 중요한 문제점을 확인했습니다: 선호도 마진을 확대하는 것이 반드시 생성 품질 향상으로 이어지지는 않는다는 것입니다. 특히 표준 Diffusion-DPO 목적 함수는 승자와 패자 브랜치 모두의 재구성 오차를 증가시킬 수 있습니다. 그 결과, 선호도가 낮은 출력의 저하가 심해져 마진이 커짐에 따라 선호되는 브랜치까지 부정적인 영향을 받을 수 있습니다. 이를 해결하기 위해 우리는 Diffusion-SDPO를 도입했습니다. 이는 패자 그래디언트를 승자 그래디언트와의 정렬 정도에 따라 적응적으로 스케일링하여 승자를 보존하는 안전장치가 있는 업데이트 규칙입니다. 1차 분석을 통해 최적화 단계마다 선호 출력의 오차가 비증가함을 보장하는 폐쇄형 스케일링 계수를 도출했습니다. 우리의 방법은 단순하며 모델에 독립적이고, 기존 DPO 스타일 정렬 프레임워크와 광범위하게 호환되며, 계산 오버헤드도 미미합니다. 표준 텍스트-이미지 벤치마크에서 Diffusion-SDPO는 자동화된 선호도, 심미성, 프롬프트 정렬 메트릭에 대해 선호도 학습 기준선 대비 일관된 성능 향상을 제공합니다. 코드는 https://github.com/AIDC-AI/Diffusion-SDPO에서 공개적으로 이용 가능합니다.
English
Text-to-image diffusion models deliver high-quality images, yet aligning them
with human preferences remains challenging. We revisit diffusion-based Direct
Preference Optimization (DPO) for these models and identify a critical
pathology: enlarging the preference margin does not necessarily improve
generation quality. In particular, the standard Diffusion-DPO objective can
increase the reconstruction error of both winner and loser branches.
Consequently, degradation of the less-preferred outputs can become sufficiently
severe that the preferred branch is also adversely affected even as the margin
grows. To address this, we introduce Diffusion-SDPO, a safeguarded update rule
that preserves the winner by adaptively scaling the loser gradient according to
its alignment with the winner gradient. A first-order analysis yields a
closed-form scaling coefficient that guarantees the error of the preferred
output is non-increasing at each optimization step. Our method is simple,
model-agnostic, broadly compatible with existing DPO-style alignment frameworks
and adds only marginal computational overhead. Across standard text-to-image
benchmarks, Diffusion-SDPO delivers consistent gains over preference-learning
baselines on automated preference, aesthetic, and prompt alignment metrics.
Code is publicly available at https://github.com/AIDC-AI/Diffusion-SDPO.