Gratis Lunch Alignment van Text-naar-Beeld Diffusiemodellen zonder Voorkeursbeeldparen
Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs
September 30, 2025
Auteurs: Jia Jun Cheng Xian, Muchen Li, Haotian Yang, Xin Tao, Pengfei Wan, Leonid Sigal, Renjie Liao
cs.AI
Samenvatting
Recente vooruitgang in diffusiegebaseerde tekst-naar-beeld (T2I) modellen heeft geleid tot opmerkelijke successen in het genereren van hoogwaardige afbeeldingen vanuit tekstuele prompts. Het waarborgen van een nauwkeurige afstemming tussen de tekst en de gegenereerde afbeelding blijft echter een aanzienlijke uitdaging voor state-of-the-art diffusiemodellen. Om dit aan te pakken, maken bestaande studies gebruik van reinforcement learning met menselijke feedback (RLHF) om T2I-uitvoer af te stemmen op menselijke voorkeuren. Deze methoden vertrouwen echter direct op gepaarde afbeeldingsvoorkeursdata of vereisen een geleerde beloningsfunctie, die beide sterk afhankelijk zijn van kostbare, hoogwaardige menselijke annotaties en daardoor schaalbaarheidsbeperkingen ondervinden. In dit werk introduceren we Text Preference Optimization (TPO), een raamwerk dat "gratis" afstemming van T2I-modellen mogelijk maakt, waarbij afstemming wordt bereikt zonder de noodzaak van gepaarde afbeeldingsvoorkeursdata. TPO werkt door het model te trainen om overeenkomende prompts te verkiezen boven niet-overeenkomende prompts, die worden geconstrueerd door originele bijschriften te verstoren met behulp van een groot taalmodel. Ons raamwerk is algemeen en compatibel met bestaande voorkeursgebaseerde algoritmen. We breiden zowel DPO als KTO uit naar onze instelling, wat resulteert in TDPO en TKTO. Kwantitatieve en kwalitatieve evaluaties over meerdere benchmarks tonen aan dat onze methoden consistent beter presteren dan hun originele tegenhangers, met betere menselijke voorkeursscores en verbeterde tekst-naar-beeld afstemming. Onze open-source code is beschikbaar op https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.
English
Recent advances in diffusion-based text-to-image (T2I) models have led to
remarkable success in generating high-quality images from textual prompts.
However, ensuring accurate alignment between the text and the generated image
remains a significant challenge for state-of-the-art diffusion models. To
address this, existing studies employ reinforcement learning with human
feedback (RLHF) to align T2I outputs with human preferences. These methods,
however, either rely directly on paired image preference data or require a
learned reward function, both of which depend heavily on costly, high-quality
human annotations and thus face scalability limitations. In this work, we
introduce Text Preference Optimization (TPO), a framework that enables
"free-lunch" alignment of T2I models, achieving alignment without the need for
paired image preference data. TPO works by training the model to prefer matched
prompts over mismatched prompts, which are constructed by perturbing original
captions using a large language model. Our framework is general and compatible
with existing preference-based algorithms. We extend both DPO and KTO to our
setting, resulting in TDPO and TKTO. Quantitative and qualitative evaluations
across multiple benchmarks show that our methods consistently outperform their
original counterparts, delivering better human preference scores and improved
text-to-image alignment. Our Open-source code is available at
https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.