Otimização de Preferência de Legenda Dupla para Modelos de Difusão
Dual Caption Preference Optimization for Diffusion Models
February 9, 2025
Autores: Amir Saeidi, Yiran Luo, Agneet Chatterjee, Shamanthak Hegde, Bimsara Pathiraja, Yezhou Yang, Chitta Baral
cs.AI
Resumo
Avanços recentes na otimização de preferências humanas, originalmente desenvolvidos para Modelos de Linguagem de Grande Escala (LLMs), têm mostrado um potencial significativo em melhorar os modelos de difusão texto-imagem. Esses métodos visam aprender a distribuição de amostras preferidas enquanto as distinguem das menos preferidas. No entanto, conjuntos de dados de preferência existentes frequentemente apresentam sobreposição entre essas distribuições, resultando em uma distribuição conflitante. Além disso, identificamos que as entradas contêm informações irrelevantes para imagens menos preferidas, limitando a capacidade da rede de remoção de ruído de prever com precisão o ruído nos métodos de otimização de preferência, conhecido como o problema do prompt irrelevante. Para enfrentar esses desafios, propomos a Otimização de Preferência de Dupla Legenda (DCPO), uma abordagem inovadora que utiliza duas legendas distintas para mitigar prompts irrelevantes. Para lidar com a distribuição conflitante, introduzimos o conjunto de dados Pick-Double Caption, uma versão modificada do Pick-a-Pic v2 com legendas separadas para imagens preferidas e menos preferidas. Além disso, propomos três estratégias diferentes para gerar legendas distintas: legendagem, perturbação e métodos híbridos. Nossos experimentos mostram que o DCPO melhora significativamente a qualidade e relevância das imagens para os prompts, superando o Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO e MaPO em várias métricas, incluindo Pickscore, HPSv2.1, GenEval, CLIPscore e ImageReward, ajustados com base no SD 2.1 como espinha dorsal.
English
Recent advancements in human preference optimization, originally developed
for Large Language Models (LLMs), have shown significant potential in improving
text-to-image diffusion models. These methods aim to learn the distribution of
preferred samples while distinguishing them from less preferred ones. However,
existing preference datasets often exhibit overlap between these distributions,
leading to a conflict distribution. Additionally, we identified that input
prompts contain irrelevant information for less preferred images, limiting the
denoising network's ability to accurately predict noise in preference
optimization methods, known as the irrelevant prompt issue. To address these
challenges, we propose Dual Caption Preference Optimization (DCPO), a novel
approach that utilizes two distinct captions to mitigate irrelevant prompts. To
tackle conflict distribution, we introduce the Pick-Double Caption dataset, a
modified version of Pick-a-Pic v2 with separate captions for preferred and less
preferred images. We further propose three different strategies for generating
distinct captions: captioning, perturbation, and hybrid methods. Our
experiments show that DCPO significantly improves image quality and relevance
to prompts, outperforming Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO,
and MaPO across multiple metrics, including Pickscore, HPSv2.1, GenEval,
CLIPscore, and ImageReward, fine-tuned on SD 2.1 as the backbone.