Diffusion-SDPO:拡散モデル向け保護型直接選好最適化
Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models
November 5, 2025
著者: Minghao Fu, Guo-Hua Wang, Tianyu Cui, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
要旨
テキストから画像への拡散モデルは高品質な画像を生成するが、人間の選好との整合性を確保することは依然として課題である。本研究では、拡散モデルに基づく直接選好最適化(DPO)を再検討し、重要な問題点を特定した:選好マージンを拡大しても生成品質が必ずしも向上するわけではない。特に、標準的なDiffusion-DPOの目的関数は、勝者ブランチと敗者ブランチの両方の再構成誤差を増大させる可能性がある。その結果、選好度の低い出力の劣化が十分に進行すると、マージンが拡大するにつれて、選好度の高いブランチにも悪影響が及ぶ。この問題に対処するため、我々はDiffusion-SDPOを提案する。これは、敗者勾配と勝者勾配の整合性に応じて敗者勾配を適応的にスケーリングすることで、勝者を保護する安全な更新規則である。一次解析により、最適化ステップ毎に選好出力の誤差が非増加であることを保証する閉形式のスケーリング係数が得られる。本手法は単純でモデル非依存、既存のDPO形式の整合性フレームワークと広く互換性があり、計算オーバーヘッドも僅かである。標準的なテキストから画像へのベンチマークにおいて、Diffusion-SDPOは、自動選好、美的品質、プロンプト整合性の指標において、選好学習ベースラインを一貫して上回る結果を示した。コードはhttps://github.com/AIDC-AI/Diffusion-SDPO で公開されている。
English
Text-to-image diffusion models deliver high-quality images, yet aligning them
with human preferences remains challenging. We revisit diffusion-based Direct
Preference Optimization (DPO) for these models and identify a critical
pathology: enlarging the preference margin does not necessarily improve
generation quality. In particular, the standard Diffusion-DPO objective can
increase the reconstruction error of both winner and loser branches.
Consequently, degradation of the less-preferred outputs can become sufficiently
severe that the preferred branch is also adversely affected even as the margin
grows. To address this, we introduce Diffusion-SDPO, a safeguarded update rule
that preserves the winner by adaptively scaling the loser gradient according to
its alignment with the winner gradient. A first-order analysis yields a
closed-form scaling coefficient that guarantees the error of the preferred
output is non-increasing at each optimization step. Our method is simple,
model-agnostic, broadly compatible with existing DPO-style alignment frameworks
and adds only marginal computational overhead. Across standard text-to-image
benchmarks, Diffusion-SDPO delivers consistent gains over preference-learning
baselines on automated preference, aesthetic, and prompt alignment metrics.
Code is publicly available at https://github.com/AIDC-AI/Diffusion-SDPO.