ChatPaper.aiChatPaper

Optimización de la Preferencia de Subtítulos Duales para Modelos de Difusión

Dual Caption Preference Optimization for Diffusion Models

February 9, 2025
Autores: Amir Saeidi, Yiran Luo, Agneet Chatterjee, Shamanthak Hegde, Bimsara Pathiraja, Yezhou Yang, Chitta Baral
cs.AI

Resumen

Los recientes avances en la optimización de preferencias humanas, originalmente desarrollados para Modelos de Lenguaje Grandes (LLMs), han demostrado un potencial significativo en mejorar los modelos de difusión de texto a imagen. Estos métodos tienen como objetivo aprender la distribución de muestras preferidas mientras las distinguen de las menos preferidas. Sin embargo, los conjuntos de datos de preferencias existentes a menudo muestran superposición entre estas distribuciones, lo que conduce a una distribución conflictiva. Además, identificamos que las indicaciones de entrada contienen información irrelevante para las imágenes menos preferidas, limitando la capacidad de la red de eliminación de ruido para predecir con precisión el ruido en los métodos de optimización de preferencias, conocido como el problema de la indicación irrelevante. Para abordar estos desafíos, proponemos la Optimización de Preferencia de Doble Subtítulo (DCPO), un enfoque novedoso que utiliza dos subtítulos distintos para mitigar las indicaciones irrelevantes. Para abordar la distribución conflictiva, presentamos el conjunto de datos Pick-Double Caption, una versión modificada de Pick-a-Pic v2 con subtítulos separados para las imágenes preferidas y menos preferidas. Además, proponemos tres estrategias diferentes para generar subtítulos distintos: subtitulación, perturbación y métodos híbridos. Nuestros experimentos muestran que DCPO mejora significativamente la calidad de imagen y la relevancia a las indicaciones, superando a Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO y MaPO en múltiples métricas, incluyendo Pickscore, HPSv2.1, GenEval, CLIPscore y ImageReward, ajustados en SD 2.1 como base.
English
Recent advancements in human preference optimization, originally developed for Large Language Models (LLMs), have shown significant potential in improving text-to-image diffusion models. These methods aim to learn the distribution of preferred samples while distinguishing them from less preferred ones. However, existing preference datasets often exhibit overlap between these distributions, leading to a conflict distribution. Additionally, we identified that input prompts contain irrelevant information for less preferred images, limiting the denoising network's ability to accurately predict noise in preference optimization methods, known as the irrelevant prompt issue. To address these challenges, we propose Dual Caption Preference Optimization (DCPO), a novel approach that utilizes two distinct captions to mitigate irrelevant prompts. To tackle conflict distribution, we introduce the Pick-Double Caption dataset, a modified version of Pick-a-Pic v2 with separate captions for preferred and less preferred images. We further propose three different strategies for generating distinct captions: captioning, perturbation, and hybrid methods. Our experiments show that DCPO significantly improves image quality and relevance to prompts, outperforming Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO, and MaPO across multiple metrics, including Pickscore, HPSv2.1, GenEval, CLIPscore, and ImageReward, fine-tuned on SD 2.1 as the backbone.

Summary

AI-Generated Summary

PDF92February 11, 2025