Gratis Lunch Alignment van Text-naar-Beeld Diffusiemodellen zonder Voorkeursbeeldparen

Samenvatting

Recente vooruitgang in diffusiegebaseerde tekst-naar-beeld (T2I) modellen heeft geleid tot opmerkelijke successen in het genereren van hoogwaardige afbeeldingen vanuit tekstuele prompts. Het waarborgen van een nauwkeurige afstemming tussen de tekst en de gegenereerde afbeelding blijft echter een aanzienlijke uitdaging voor state-of-the-art diffusiemodellen. Om dit aan te pakken, maken bestaande studies gebruik van reinforcement learning met menselijke feedback (RLHF) om T2I-uitvoer af te stemmen op menselijke voorkeuren. Deze methoden vertrouwen echter direct op gepaarde afbeeldingsvoorkeursdata of vereisen een geleerde beloningsfunctie, die beide sterk afhankelijk zijn van kostbare, hoogwaardige menselijke annotaties en daardoor schaalbaarheidsbeperkingen ondervinden. In dit werk introduceren we Text Preference Optimization (TPO), een raamwerk dat "gratis" afstemming van T2I-modellen mogelijk maakt, waarbij afstemming wordt bereikt zonder de noodzaak van gepaarde afbeeldingsvoorkeursdata. TPO werkt door het model te trainen om overeenkomende prompts te verkiezen boven niet-overeenkomende prompts, die worden geconstrueerd door originele bijschriften te verstoren met behulp van een groot taalmodel. Ons raamwerk is algemeen en compatibel met bestaande voorkeursgebaseerde algoritmen. We breiden zowel DPO als KTO uit naar onze instelling, wat resulteert in TDPO en TKTO. Kwantitatieve en kwalitatieve evaluaties over meerdere benchmarks tonen aan dat onze methoden consistent beter presteren dan hun originele tegenhangers, met betere menselijke voorkeursscores en verbeterde tekst-naar-beeld afstemming. Onze open-source code is beschikbaar op https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.

English

Recent advances in diffusion-based text-to-image (T2I) models have led to remarkable success in generating high-quality images from textual prompts. However, ensuring accurate alignment between the text and the generated image remains a significant challenge for state-of-the-art diffusion models. To address this, existing studies employ reinforcement learning with human feedback (RLHF) to align T2I outputs with human preferences. These methods, however, either rely directly on paired image preference data or require a learned reward function, both of which depend heavily on costly, high-quality human annotations and thus face scalability limitations. In this work, we introduce Text Preference Optimization (TPO), a framework that enables "free-lunch" alignment of T2I models, achieving alignment without the need for paired image preference data. TPO works by training the model to prefer matched prompts over mismatched prompts, which are constructed by perturbing original captions using a large language model. Our framework is general and compatible with existing preference-based algorithms. We extend both DPO and KTO to our setting, resulting in TDPO and TKTO. Quantitative and qualitative evaluations across multiple benchmarks show that our methods consistently outperform their original counterparts, delivering better human preference scores and improved text-to-image alignment. Our Open-source code is available at https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.

Gratis Lunch Alignment van Text-naar-Beeld Diffusiemodellen zonder Voorkeursbeeldparen

Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs

Samenvatting

Support