Alinhamento de Modelos de Difusão Texto-para-Imagem sem Pares de Imagens de Preferência

Resumo

Avanços recentes em modelos de texto para imagem (T2I) baseados em difusão têm levado a um sucesso notável na geração de imagens de alta qualidade a partir de prompts textuais. No entanto, garantir um alinhamento preciso entre o texto e a imagem gerada continua sendo um desafio significativo para os modelos de difusão state-of-the-art. Para abordar isso, estudos existentes empregam aprendizado por reforço com feedback humano (RLHF) para alinhar as saídas T2I com as preferências humanas. Esses métodos, no entanto, dependem diretamente de dados de preferência de imagens pareadas ou exigem uma função de recompensa aprendida, ambas as quais dependem fortemente de anotações humanas caras e de alta qualidade, enfrentando, assim, limitações de escalabilidade. Neste trabalho, introduzimos o Text Preference Optimization (TPO), um framework que permite o alinhamento "free-lunch" de modelos T2I, alcançando o alinhamento sem a necessidade de dados de preferência de imagens pareadas. O TPO funciona treinando o modelo para preferir prompts correspondentes em vez de prompts não correspondentes, que são construídos perturbando legendas originais usando um modelo de linguagem grande. Nosso framework é geral e compatível com algoritmos baseados em preferência existentes. Estendemos tanto o DPO quanto o KTO para nossa configuração, resultando em TDPO e TKTO. Avaliações quantitativas e qualitativas em vários benchmarks mostram que nossos métodos superam consistentemente suas contrapartes originais, entregando melhores pontuações de preferência humana e um alinhamento texto-imagem aprimorado. Nosso código de código aberto está disponível em https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.

English

Recent advances in diffusion-based text-to-image (T2I) models have led to remarkable success in generating high-quality images from textual prompts. However, ensuring accurate alignment between the text and the generated image remains a significant challenge for state-of-the-art diffusion models. To address this, existing studies employ reinforcement learning with human feedback (RLHF) to align T2I outputs with human preferences. These methods, however, either rely directly on paired image preference data or require a learned reward function, both of which depend heavily on costly, high-quality human annotations and thus face scalability limitations. In this work, we introduce Text Preference Optimization (TPO), a framework that enables "free-lunch" alignment of T2I models, achieving alignment without the need for paired image preference data. TPO works by training the model to prefer matched prompts over mismatched prompts, which are constructed by perturbing original captions using a large language model. Our framework is general and compatible with existing preference-based algorithms. We extend both DPO and KTO to our setting, resulting in TDPO and TKTO. Quantitative and qualitative evaluations across multiple benchmarks show that our methods consistently outperform their original counterparts, delivering better human preference scores and improved text-to-image alignment. Our Open-source code is available at https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.

Alinhamento de Modelos de Difusão Texto-para-Imagem sem Pares de Imagens de Preferência

Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs

Resumo

Support