Quando as Preferências Divergem: Alinhando Modelos de Difusão com DPO Adaptativo Consciente das Minorias
When Preferences Diverge: Aligning Diffusion Models with Minority-Aware Adaptive DPO
March 21, 2025
Autores: Lingfan Zhang, Chen Liu, Chengming Xu, Kai Hu, Donghao Luo, Chengjie Wang, Yanwei Fu, Yuan Yao
cs.AI
Resumo
Nos últimos anos, o campo de geração de imagens testemunhou avanços significativos, particularmente em métodos de ajuste fino que alinham modelos com preferências humanas universais. Este artigo explora o papel crucial dos dados de preferência no processo de treinamento de modelos de difusão, especialmente no contexto do Diffusion-DPO e suas adaptações subsequentes. Investigamos as complexidades relacionadas às preferências humanas universais na geração de imagens, destacando a natureza subjetiva dessas preferências e os desafios impostos por amostras minoritárias em conjuntos de dados de preferência. Por meio de experimentos piloto, demonstramos a existência de amostras minoritárias e seus efeitos prejudiciais no desempenho do modelo. Propomos o Adaptive-DPO — uma abordagem inovadora que incorpora uma métrica consciente de instâncias minoritárias no objetivo do DPO. Essa métrica, que inclui confiança intra-anotador e estabilidade inter-anotador, distingue entre amostras majoritárias e minoritárias. Introduzimos uma função de perda do Adaptive-DPO que melhora a perda do DPO de duas maneiras: aprimorando o aprendizado do modelo em relação aos rótulos majoritários, ao mesmo tempo que mitiga o impacto negativo das amostras minoritárias. Nossos experimentos demonstram que esse método lida efetivamente tanto com dados sintéticos minoritários quanto com dados de preferência do mundo real, abrindo caminho para metodologias de treinamento mais eficazes em tarefas de geração de imagens.
English
In recent years, the field of image generation has witnessed significant
advancements, particularly in fine-tuning methods that align models with
universal human preferences. This paper explores the critical role of
preference data in the training process of diffusion models, particularly in
the context of Diffusion-DPO and its subsequent adaptations. We investigate the
complexities surrounding universal human preferences in image generation,
highlighting the subjective nature of these preferences and the challenges
posed by minority samples in preference datasets. Through pilot experiments, we
demonstrate the existence of minority samples and their detrimental effects on
model performance. We propose Adaptive-DPO -- a novel approach that
incorporates a minority-instance-aware metric into the DPO objective. This
metric, which includes intra-annotator confidence and inter-annotator
stability, distinguishes between majority and minority samples. We introduce an
Adaptive-DPO loss function which improves the DPO loss in two ways: enhancing
the model's learning of majority labels while mitigating the negative impact of
minority samples. Our experiments demonstrate that this method effectively
handles both synthetic minority data and real-world preference data, paving the
way for more effective training methodologies in image generation tasks.Summary
AI-Generated Summary