Diffusion-SDPO: Optimización Directa de Preferencias con Salvaguardas para Modelos de Difusión
Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models
November 5, 2025
Autores: Minghao Fu, Guo-Hua Wang, Tianyu Cui, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
Resumen
Los modelos de difusión de texto a imagen generan imágenes de alta calidad, pero alinearlas con las preferencias humanas sigue siendo un desafío. Revisamos la Optimización Directa de Preferencias (DPO) basada en difusión para estos modelos e identificamos una patología crítica: ampliar el margen de preferencia no necesariamente mejora la calidad de la generación. En particular, el objetivo estándar de Diffusion-DPO puede aumentar el error de reconstrucción tanto de la rama ganadora como de la perdedora. En consecuencia, la degradación de las salidas menos preferidas puede volverse lo suficientemente severa como para que la rama preferida también se vea afectada negativamente, incluso a medida que crece el margen. Para abordar esto, presentamos Diffusion-SDPO, una regla de actualización protegida que preserva la rama ganadora escalando adaptativamente el gradiente de la perdedora según su alineación con el gradiente de la ganadora. Un análisis de primer orden produce un coeficiente de escalado en forma cerrada que garantiza que el error de la salida preferida no aumente en cada paso de optimización. Nuestro método es simple, independiente del modelo, ampliamente compatible con los marcos de alineación estilo DPO existentes y añade solo una sobrecarga computacional marginal. En benchmarks estándar de texto a imagen, Diffusion-SDPO ofrece ganancias consistentes sobre los baselines de aprendizaje por preferencias en métricas automatizadas de preferencia, estética y alineación con el prompt. El código está disponible públicamente en https://github.com/AIDC-AI/Diffusion-SDPO.
English
Text-to-image diffusion models deliver high-quality images, yet aligning them
with human preferences remains challenging. We revisit diffusion-based Direct
Preference Optimization (DPO) for these models and identify a critical
pathology: enlarging the preference margin does not necessarily improve
generation quality. In particular, the standard Diffusion-DPO objective can
increase the reconstruction error of both winner and loser branches.
Consequently, degradation of the less-preferred outputs can become sufficiently
severe that the preferred branch is also adversely affected even as the margin
grows. To address this, we introduce Diffusion-SDPO, a safeguarded update rule
that preserves the winner by adaptively scaling the loser gradient according to
its alignment with the winner gradient. A first-order analysis yields a
closed-form scaling coefficient that guarantees the error of the preferred
output is non-increasing at each optimization step. Our method is simple,
model-agnostic, broadly compatible with existing DPO-style alignment frameworks
and adds only marginal computational overhead. Across standard text-to-image
benchmarks, Diffusion-SDPO delivers consistent gains over preference-learning
baselines on automated preference, aesthetic, and prompt alignment metrics.
Code is publicly available at https://github.com/AIDC-AI/Diffusion-SDPO.