Diffusion-SDPO: Geschützte Direkte Präferenzoptimierung für Diffusionsmodelle
Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models
November 5, 2025
papers.authors: Minghao Fu, Guo-Hua Wang, Tianyu Cui, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
papers.abstract
Text-to-Image-Diffusionsmodelle liefern hochwertige Bilder, doch die Ausrichtung an menschlichen Präferenzen bleibt eine Herausforderung. Wir untersuchen diffusionsbasierte Direct Preference Optimization (DPO) für diese Modelle erneut und identifizieren eine kritische Pathologie: Eine Vergrößerung der Präferenzspanne verbessert nicht zwangsläufig die Generierungsqualität. Insbesondere kann das standardmäßige Diffusion-DPO-Ziel den Rekonstruktionsfehler sowohl der Gewinner- als auch der Verlierer-Zweige erhöhen. Folglich kann die Verschlechterung der weniger präferierten Ausgaben so stark werden, dass sogar der präferierte Zweig negativ beeinflusst wird, während die Spanne wächst. Um dies zu adressieren, führen wir Diffusion-SDPO ein, eine geschützte Aktualisierungsregel, die den Gewinner erhält, indem der Gradient des Verlierers adaptiv an dessen Ausrichtung zum Gewinner-Gradienten skaliert wird. Eine Analyse erster Ordnung ergibt einen geschlossenen Skalierungskoeffizienten, der garantiert, dass der Fehler der präferierten Ausgabe in jedem Optimierungsschritt nicht zunimmt. Unser Ansatz ist einfach, modellagnostisch, breit kompatibel mit bestehenden DPO-artigen Alignment-Frameworks und verursacht nur marginalen Rechenmehraufwand. In standardisierten Text-to-Image-Benchmarks erzielt Diffusion-SDPO durchgängig Verbesserungen gegenüber Präferenzlern-Baselines bei automatisierten Metriken für Präferenz, Ästhetik und Prompt-Ausrichtung. Der Code ist öffentlich verfügbar unter https://github.com/AIDC-AI/Diffusion-SDPO.
English
Text-to-image diffusion models deliver high-quality images, yet aligning them
with human preferences remains challenging. We revisit diffusion-based Direct
Preference Optimization (DPO) for these models and identify a critical
pathology: enlarging the preference margin does not necessarily improve
generation quality. In particular, the standard Diffusion-DPO objective can
increase the reconstruction error of both winner and loser branches.
Consequently, degradation of the less-preferred outputs can become sufficiently
severe that the preferred branch is also adversely affected even as the margin
grows. To address this, we introduce Diffusion-SDPO, a safeguarded update rule
that preserves the winner by adaptively scaling the loser gradient according to
its alignment with the winner gradient. A first-order analysis yields a
closed-form scaling coefficient that guarantees the error of the preferred
output is non-increasing at each optimization step. Our method is simple,
model-agnostic, broadly compatible with existing DPO-style alignment frameworks
and adds only marginal computational overhead. Across standard text-to-image
benchmarks, Diffusion-SDPO delivers consistent gains over preference-learning
baselines on automated preference, aesthetic, and prompt alignment metrics.
Code is publicly available at https://github.com/AIDC-AI/Diffusion-SDPO.