Diffusion-SDPO: Geschützte Direkte Präferenzoptimierung für Diffusionsmodelle

papers.abstract

Text-to-Image-Diffusionsmodelle liefern hochwertige Bilder, doch die Ausrichtung an menschlichen Präferenzen bleibt eine Herausforderung. Wir untersuchen diffusionsbasierte Direct Preference Optimization (DPO) für diese Modelle erneut und identifizieren eine kritische Pathologie: Eine Vergrößerung der Präferenzspanne verbessert nicht zwangsläufig die Generierungsqualität. Insbesondere kann das standardmäßige Diffusion-DPO-Ziel den Rekonstruktionsfehler sowohl der Gewinner- als auch der Verlierer-Zweige erhöhen. Folglich kann die Verschlechterung der weniger präferierten Ausgaben so stark werden, dass sogar der präferierte Zweig negativ beeinflusst wird, während die Spanne wächst. Um dies zu adressieren, führen wir Diffusion-SDPO ein, eine geschützte Aktualisierungsregel, die den Gewinner erhält, indem der Gradient des Verlierers adaptiv an dessen Ausrichtung zum Gewinner-Gradienten skaliert wird. Eine Analyse erster Ordnung ergibt einen geschlossenen Skalierungskoeffizienten, der garantiert, dass der Fehler der präferierten Ausgabe in jedem Optimierungsschritt nicht zunimmt. Unser Ansatz ist einfach, modellagnostisch, breit kompatibel mit bestehenden DPO-artigen Alignment-Frameworks und verursacht nur marginalen Rechenmehraufwand. In standardisierten Text-to-Image-Benchmarks erzielt Diffusion-SDPO durchgängig Verbesserungen gegenüber Präferenzlern-Baselines bei automatisierten Metriken für Präferenz, Ästhetik und Prompt-Ausrichtung. Der Code ist öffentlich verfügbar unter https://github.com/AIDC-AI/Diffusion-SDPO.

English

Text-to-image diffusion models deliver high-quality images, yet aligning them with human preferences remains challenging. We revisit diffusion-based Direct Preference Optimization (DPO) for these models and identify a critical pathology: enlarging the preference margin does not necessarily improve generation quality. In particular, the standard Diffusion-DPO objective can increase the reconstruction error of both winner and loser branches. Consequently, degradation of the less-preferred outputs can become sufficiently severe that the preferred branch is also adversely affected even as the margin grows. To address this, we introduce Diffusion-SDPO, a safeguarded update rule that preserves the winner by adaptively scaling the loser gradient according to its alignment with the winner gradient. A first-order analysis yields a closed-form scaling coefficient that guarantees the error of the preferred output is non-increasing at each optimization step. Our method is simple, model-agnostic, broadly compatible with existing DPO-style alignment frameworks and adds only marginal computational overhead. Across standard text-to-image benchmarks, Diffusion-SDPO delivers consistent gains over preference-learning baselines on automated preference, aesthetic, and prompt alignment metrics. Code is publicly available at https://github.com/AIDC-AI/Diffusion-SDPO.

Diffusion-SDPO: Geschützte Direkte Präferenzoptimierung für Diffusionsmodelle

Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models

papers.abstract

Support