Diffusion-SDPO: Optimización Directa de Preferencias con Salvaguardas para Modelos de Difusión

Resumen

Los modelos de difusión de texto a imagen generan imágenes de alta calidad, pero alinearlas con las preferencias humanas sigue siendo un desafío. Revisamos la Optimización Directa de Preferencias (DPO) basada en difusión para estos modelos e identificamos una patología crítica: ampliar el margen de preferencia no necesariamente mejora la calidad de la generación. En particular, el objetivo estándar de Diffusion-DPO puede aumentar el error de reconstrucción tanto de la rama ganadora como de la perdedora. En consecuencia, la degradación de las salidas menos preferidas puede volverse lo suficientemente severa como para que la rama preferida también se vea afectada negativamente, incluso a medida que crece el margen. Para abordar esto, presentamos Diffusion-SDPO, una regla de actualización protegida que preserva la rama ganadora escalando adaptativamente el gradiente de la perdedora según su alineación con el gradiente de la ganadora. Un análisis de primer orden produce un coeficiente de escalado en forma cerrada que garantiza que el error de la salida preferida no aumente en cada paso de optimización. Nuestro método es simple, independiente del modelo, ampliamente compatible con los marcos de alineación estilo DPO existentes y añade solo una sobrecarga computacional marginal. En benchmarks estándar de texto a imagen, Diffusion-SDPO ofrece ganancias consistentes sobre los baselines de aprendizaje por preferencias en métricas automatizadas de preferencia, estética y alineación con el prompt. El código está disponible públicamente en https://github.com/AIDC-AI/Diffusion-SDPO.

English

Text-to-image diffusion models deliver high-quality images, yet aligning them with human preferences remains challenging. We revisit diffusion-based Direct Preference Optimization (DPO) for these models and identify a critical pathology: enlarging the preference margin does not necessarily improve generation quality. In particular, the standard Diffusion-DPO objective can increase the reconstruction error of both winner and loser branches. Consequently, degradation of the less-preferred outputs can become sufficiently severe that the preferred branch is also adversely affected even as the margin grows. To address this, we introduce Diffusion-SDPO, a safeguarded update rule that preserves the winner by adaptively scaling the loser gradient according to its alignment with the winner gradient. A first-order analysis yields a closed-form scaling coefficient that guarantees the error of the preferred output is non-increasing at each optimization step. Our method is simple, model-agnostic, broadly compatible with existing DPO-style alignment frameworks and adds only marginal computational overhead. Across standard text-to-image benchmarks, Diffusion-SDPO delivers consistent gains over preference-learning baselines on automated preference, aesthetic, and prompt alignment metrics. Code is publicly available at https://github.com/AIDC-AI/Diffusion-SDPO.

Diffusion-SDPO: Optimización Directa de Preferencias con Salvaguardas para Modelos de Difusión

Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models

Resumen

Support