Otimização de Preferência de Legenda Dupla para Modelos de Difusão

Resumo

Avanços recentes na otimização de preferências humanas, originalmente desenvolvidos para Modelos de Linguagem de Grande Escala (LLMs), têm mostrado um potencial significativo em melhorar os modelos de difusão texto-imagem. Esses métodos visam aprender a distribuição de amostras preferidas enquanto as distinguem das menos preferidas. No entanto, conjuntos de dados de preferência existentes frequentemente apresentam sobreposição entre essas distribuições, resultando em uma distribuição conflitante. Além disso, identificamos que as entradas contêm informações irrelevantes para imagens menos preferidas, limitando a capacidade da rede de remoção de ruído de prever com precisão o ruído nos métodos de otimização de preferência, conhecido como o problema do prompt irrelevante. Para enfrentar esses desafios, propomos a Otimização de Preferência de Dupla Legenda (DCPO), uma abordagem inovadora que utiliza duas legendas distintas para mitigar prompts irrelevantes. Para lidar com a distribuição conflitante, introduzimos o conjunto de dados Pick-Double Caption, uma versão modificada do Pick-a-Pic v2 com legendas separadas para imagens preferidas e menos preferidas. Além disso, propomos três estratégias diferentes para gerar legendas distintas: legendagem, perturbação e métodos híbridos. Nossos experimentos mostram que o DCPO melhora significativamente a qualidade e relevância das imagens para os prompts, superando o Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO e MaPO em várias métricas, incluindo Pickscore, HPSv2.1, GenEval, CLIPscore e ImageReward, ajustados com base no SD 2.1 como espinha dorsal.

English

Recent advancements in human preference optimization, originally developed for Large Language Models (LLMs), have shown significant potential in improving text-to-image diffusion models. These methods aim to learn the distribution of preferred samples while distinguishing them from less preferred ones. However, existing preference datasets often exhibit overlap between these distributions, leading to a conflict distribution. Additionally, we identified that input prompts contain irrelevant information for less preferred images, limiting the denoising network's ability to accurately predict noise in preference optimization methods, known as the irrelevant prompt issue. To address these challenges, we propose Dual Caption Preference Optimization (DCPO), a novel approach that utilizes two distinct captions to mitigate irrelevant prompts. To tackle conflict distribution, we introduce the Pick-Double Caption dataset, a modified version of Pick-a-Pic v2 with separate captions for preferred and less preferred images. We further propose three different strategies for generating distinct captions: captioning, perturbation, and hybrid methods. Our experiments show that DCPO significantly improves image quality and relevance to prompts, outperforming Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO, and MaPO across multiple metrics, including Pickscore, HPSv2.1, GenEval, CLIPscore, and ImageReward, fine-tuned on SD 2.1 as the backbone.

Otimização de Preferência de Legenda Dupla para Modelos de Difusão

Dual Caption Preference Optimization for Diffusion Models

Resumo

Support