Alinhamento de Modelos de Difusão Texto-para-Imagem sem Pares de Imagens de Preferência
Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs
September 30, 2025
Autores: Jia Jun Cheng Xian, Muchen Li, Haotian Yang, Xin Tao, Pengfei Wan, Leonid Sigal, Renjie Liao
cs.AI
Resumo
Avanços recentes em modelos de texto para imagem (T2I) baseados em difusão têm levado a um sucesso notável na geração de imagens de alta qualidade a partir de prompts textuais. No entanto, garantir um alinhamento preciso entre o texto e a imagem gerada continua sendo um desafio significativo para os modelos de difusão state-of-the-art. Para abordar isso, estudos existentes empregam aprendizado por reforço com feedback humano (RLHF) para alinhar as saídas T2I com as preferências humanas. Esses métodos, no entanto, dependem diretamente de dados de preferência de imagens pareadas ou exigem uma função de recompensa aprendida, ambas as quais dependem fortemente de anotações humanas caras e de alta qualidade, enfrentando, assim, limitações de escalabilidade. Neste trabalho, introduzimos o Text Preference Optimization (TPO), um framework que permite o alinhamento "free-lunch" de modelos T2I, alcançando o alinhamento sem a necessidade de dados de preferência de imagens pareadas. O TPO funciona treinando o modelo para preferir prompts correspondentes em vez de prompts não correspondentes, que são construídos perturbando legendas originais usando um modelo de linguagem grande. Nosso framework é geral e compatível com algoritmos baseados em preferência existentes. Estendemos tanto o DPO quanto o KTO para nossa configuração, resultando em TDPO e TKTO. Avaliações quantitativas e qualitativas em vários benchmarks mostram que nossos métodos superam consistentemente suas contrapartes originais, entregando melhores pontuações de preferência humana e um alinhamento texto-imagem aprimorado. Nosso código de código aberto está disponível em https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.
English
Recent advances in diffusion-based text-to-image (T2I) models have led to
remarkable success in generating high-quality images from textual prompts.
However, ensuring accurate alignment between the text and the generated image
remains a significant challenge for state-of-the-art diffusion models. To
address this, existing studies employ reinforcement learning with human
feedback (RLHF) to align T2I outputs with human preferences. These methods,
however, either rely directly on paired image preference data or require a
learned reward function, both of which depend heavily on costly, high-quality
human annotations and thus face scalability limitations. In this work, we
introduce Text Preference Optimization (TPO), a framework that enables
"free-lunch" alignment of T2I models, achieving alignment without the need for
paired image preference data. TPO works by training the model to prefer matched
prompts over mismatched prompts, which are constructed by perturbing original
captions using a large language model. Our framework is general and compatible
with existing preference-based algorithms. We extend both DPO and KTO to our
setting, resulting in TDPO and TKTO. Quantitative and qualitative evaluations
across multiple benchmarks show that our methods consistently outperform their
original counterparts, delivering better human preference scores and improved
text-to-image alignment. Our Open-source code is available at
https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.