Diffusion-SDPO: Otimização Direta de Preferências com Salvaguardas para Modelos de Difusão
Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models
November 5, 2025
Autores: Minghao Fu, Guo-Hua Wang, Tianyu Cui, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
Resumo
Os modelos de difusão texto-imagem produzem imagens de alta qualidade, mas o alinhamento com as preferências humanas continua a ser um desafio. Revisitamos a Otimização Direta de Preferências (DPO) baseada em difusão para estes modelos e identificamos uma patologia crítica: o aumento da margem de preferência não melhora necessariamente a qualidade da geração. Especificamente, o objetivo padrão do Diffusion-DPO pode aumentar o erro de reconstrução tanto dos ramos vencedores como dos perdedores. Consequentemente, a degradação das saídas menos preferidas pode tornar-se suficientemente severa para afetar adversamente o ramo preferido, mesmo com o crescimento da margem. Para resolver isto, introduzimos o Diffusion-SDPO, uma regra de atualização protegida que preserva o vencedor através da escala adaptativa do gradiente do perdedor de acordo com o seu alinhamento com o gradiente do vencedor. Uma análise de primeira ordem produz um coeficiente de escala de forma fechada que garante que o erro da saída preferida é não crescente em cada passo de otimização. O nosso método é simples, agnóstico ao modelo, amplamente compatível com estruturas de alinhamento existentes do estilo DPO e adiciona apenas uma sobrecarga computacional marginal. Em benchmarks padrão texto-imagem, o Diffusion-SDPO oferece ganhos consistentes face a linhas de base de aprendizagem de preferências em métricas automáticas de preferência, estéticas e de alinhamento com o prompt. O código está publicamente disponível em https://github.com/AIDC-AI/Diffusion-SDPO.
English
Text-to-image diffusion models deliver high-quality images, yet aligning them
with human preferences remains challenging. We revisit diffusion-based Direct
Preference Optimization (DPO) for these models and identify a critical
pathology: enlarging the preference margin does not necessarily improve
generation quality. In particular, the standard Diffusion-DPO objective can
increase the reconstruction error of both winner and loser branches.
Consequently, degradation of the less-preferred outputs can become sufficiently
severe that the preferred branch is also adversely affected even as the margin
grows. To address this, we introduce Diffusion-SDPO, a safeguarded update rule
that preserves the winner by adaptively scaling the loser gradient according to
its alignment with the winner gradient. A first-order analysis yields a
closed-form scaling coefficient that guarantees the error of the preferred
output is non-increasing at each optimization step. Our method is simple,
model-agnostic, broadly compatible with existing DPO-style alignment frameworks
and adds only marginal computational overhead. Across standard text-to-image
benchmarks, Diffusion-SDPO delivers consistent gains over preference-learning
baselines on automated preference, aesthetic, and prompt alignment metrics.
Code is publicly available at https://github.com/AIDC-AI/Diffusion-SDPO.