Otimização de Preferência Classificada Escalável para Geração de Texto para Imagem
Scalable Ranked Preference Optimization for Text-to-Image Generation
October 23, 2024
Autores: Shyamgopal Karthik, Huseyin Coskun, Zeynep Akata, Sergey Tulyakov, Jian Ren, Anil Kag
cs.AI
Resumo
A Otimização Direta de Preferência (ODP) surgiu como uma abordagem poderosa para alinhar modelos texto-imagem (T2I) com o feedback humano. Infelizmente, a aplicação bem-sucedida da ODP em modelos T2I requer uma enorme quantidade de recursos para coletar e rotular conjuntos de dados em grande escala, por exemplo, milhões de imagens em pares geradas anotadas com preferências humanas. Além disso, esses conjuntos de dados de preferência humana podem ficar desatualizados rapidamente à medida que as melhorias rápidas nos modelos T2I resultam em imagens de maior qualidade. Neste trabalho, investigamos uma abordagem escalável para coletar conjuntos de dados totalmente sintéticos em grande escala para treinamento de ODP. Especificamente, as preferências para imagens em pares são geradas usando uma função de recompensa pré-treinada, eliminando a necessidade de envolver humanos no processo de anotação, melhorando significativamente a eficiência na coleta de conjuntos de dados. Além disso, demonstramos que tais conjuntos de dados permitem a média de previsões entre vários modelos e a coleta de preferências classificadas em vez de preferências em pares. Além disso, introduzimos o RankDPO para aprimorar métodos baseados em ODP usando o feedback de classificação. Aplicar o RankDPO nos modelos SDXL e SD3-Medium com nosso conjunto de dados de preferência gerado sinteticamente "Syn-Pic" melhora tanto o seguimento de instruções (em benchmarks como T2I-Compbench, GenEval e DPG-Bench) quanto a qualidade visual (por meio de estudos de usuários). Este pipeline apresenta uma solução prática e escalável para desenvolver melhores conjuntos de dados de preferência para aprimorar o desempenho de modelos texto-imagem.
English
Direct Preference Optimization (DPO) has emerged as a powerful approach to
align text-to-image (T2I) models with human feedback. Unfortunately, successful
application of DPO to T2I models requires a huge amount of resources to collect
and label large-scale datasets, e.g., millions of generated paired images
annotated with human preferences. In addition, these human preference datasets
can get outdated quickly as the rapid improvements of T2I models lead to higher
quality images. In this work, we investigate a scalable approach for collecting
large-scale and fully synthetic datasets for DPO training. Specifically, the
preferences for paired images are generated using a pre-trained reward
function, eliminating the need for involving humans in the annotation process,
greatly improving the dataset collection efficiency. Moreover, we demonstrate
that such datasets allow averaging predictions across multiple models and
collecting ranked preferences as opposed to pairwise preferences. Furthermore,
we introduce RankDPO to enhance DPO-based methods using the ranking feedback.
Applying RankDPO on SDXL and SD3-Medium models with our synthetically generated
preference dataset ``Syn-Pic'' improves both prompt-following (on benchmarks
like T2I-Compbench, GenEval, and DPG-Bench) and visual quality (through user
studies). This pipeline presents a practical and scalable solution to develop
better preference datasets to enhance the performance of text-to-image models.Summary
AI-Generated Summary