ChatPaper.aiChatPaper

Optimización de Preferencias Clasificadas Escalable para la Generación de Texto a Imagen.

Scalable Ranked Preference Optimization for Text-to-Image Generation

October 23, 2024
Autores: Shyamgopal Karthik, Huseyin Coskun, Zeynep Akata, Sergey Tulyakov, Jian Ren, Anil Kag
cs.AI

Resumen

La Optimización Directa de Preferencias (DPO) ha surgido como un enfoque poderoso para alinear modelos de texto a imagen (T2I) con la retroalimentación humana. Desafortunadamente, la aplicación exitosa de DPO a modelos T2I requiere una enorme cantidad de recursos para recopilar y etiquetar conjuntos de datos a gran escala, por ejemplo, millones de imágenes emparejadas generadas anotadas con preferencias humanas. Además, estos conjuntos de datos de preferencias humanas pueden volverse obsoletos rápidamente a medida que las mejoras rápidas de los modelos T2I conducen a imágenes de mayor calidad. En este trabajo, investigamos un enfoque escalable para recopilar conjuntos de datos totalmente sintéticos a gran escala para el entrenamiento de DPO. Específicamente, las preferencias para las imágenes emparejadas se generan utilizando una función de recompensa pre-entrenada, eliminando la necesidad de involucrar a humanos en el proceso de anotación, mejorando en gran medida la eficiencia de la recopilación de conjuntos de datos. Además, demostramos que tales conjuntos de datos permiten promediar predicciones entre múltiples modelos y recopilar preferencias clasificadas en lugar de preferencias por pares. Además, presentamos RankDPO para mejorar los métodos basados en DPO utilizando la retroalimentación de clasificación. Aplicar RankDPO en los modelos SDXL y SD3-Medium con nuestro conjunto de datos de preferencias generado de forma sintética "Syn-Pic" mejora tanto el seguimiento de indicaciones (en bancos de pruebas como T2I-Compbench, GenEval y DPG-Bench) como la calidad visual (a través de estudios de usuario). Este proceso presenta una solución práctica y escalable para desarrollar mejores conjuntos de datos de preferencias para mejorar el rendimiento de los modelos de texto a imagen.
English
Direct Preference Optimization (DPO) has emerged as a powerful approach to align text-to-image (T2I) models with human feedback. Unfortunately, successful application of DPO to T2I models requires a huge amount of resources to collect and label large-scale datasets, e.g., millions of generated paired images annotated with human preferences. In addition, these human preference datasets can get outdated quickly as the rapid improvements of T2I models lead to higher quality images. In this work, we investigate a scalable approach for collecting large-scale and fully synthetic datasets for DPO training. Specifically, the preferences for paired images are generated using a pre-trained reward function, eliminating the need for involving humans in the annotation process, greatly improving the dataset collection efficiency. Moreover, we demonstrate that such datasets allow averaging predictions across multiple models and collecting ranked preferences as opposed to pairwise preferences. Furthermore, we introduce RankDPO to enhance DPO-based methods using the ranking feedback. Applying RankDPO on SDXL and SD3-Medium models with our synthetically generated preference dataset ``Syn-Pic'' improves both prompt-following (on benchmarks like T2I-Compbench, GenEval, and DPG-Bench) and visual quality (through user studies). This pipeline presents a practical and scalable solution to develop better preference datasets to enhance the performance of text-to-image models.

Summary

AI-Generated Summary

PDF152November 16, 2024