Free Lunch Alignment von Text-to-Image-Diffusionsmodellen ohne Präferenzbildpaare
Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs
September 30, 2025
papers.authors: Jia Jun Cheng Xian, Muchen Li, Haotian Yang, Xin Tao, Pengfei Wan, Leonid Sigal, Renjie Liao
cs.AI
papers.abstract
Jüngste Fortschritte bei diffusionsbasierten Text-zu-Bild (T2I)-Modellen haben zu bemerkenswerten Erfolgen bei der Erzeugung hochwertiger Bilder aus textuellen Eingabeaufforderungen geführt. Die Gewährleistung einer genauen Übereinstimmung zwischen dem Text und dem generierten Bild bleibt jedoch eine erhebliche Herausforderung für state-of-the-art Diffusionsmodelle. Um dies zu adressieren, setzen bestehende Studien Reinforcement Learning mit menschlichem Feedback (RLHF) ein, um die T2I-Ausgaben mit menschlichen Präferenzen abzugleichen. Diese Methoden verlassen sich entweder direkt auf gepaarte Bildpräferenzdaten oder erfordern eine gelernte Belohnungsfunktion, die beide stark auf kostspielige, hochwertige menschliche Annotationen angewiesen sind und somit Skalierbarkeitsbeschränkungen unterliegen. In dieser Arbeit stellen wir Text Preference Optimization (TPO) vor, ein Framework, das eine „kostenlose“ Ausrichtung von T2I-Modellen ermöglicht, indem es eine Übereinstimmung ohne gepaarte Bildpräferenzdaten erreicht. TPO funktioniert, indem das Modell darauf trainiert wird, passende Eingabeaufforderungen gegenüber nicht passenden zu bevorzugen, die durch die Störung ursprünglicher Bildunterschriften mithilfe eines großen Sprachmodells konstruiert werden. Unser Framework ist allgemein und kompatibel mit bestehenden präferenzbasierten Algorithmen. Wir erweitern sowohl DPO als auch KTO auf unsere Einstellung, was zu TDPO und TKTO führt. Quantitative und qualitative Bewertungen über mehrere Benchmarks hinweg zeigen, dass unsere Methoden ihre ursprünglichen Gegenstücke konsequent übertreffen und bessere menschliche Präferenzwerte sowie eine verbesserte Text-zu-Bild-Übereinstimmung liefern. Unser Open-Source-Code ist verfügbar unter https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.
English
Recent advances in diffusion-based text-to-image (T2I) models have led to
remarkable success in generating high-quality images from textual prompts.
However, ensuring accurate alignment between the text and the generated image
remains a significant challenge for state-of-the-art diffusion models. To
address this, existing studies employ reinforcement learning with human
feedback (RLHF) to align T2I outputs with human preferences. These methods,
however, either rely directly on paired image preference data or require a
learned reward function, both of which depend heavily on costly, high-quality
human annotations and thus face scalability limitations. In this work, we
introduce Text Preference Optimization (TPO), a framework that enables
"free-lunch" alignment of T2I models, achieving alignment without the need for
paired image preference data. TPO works by training the model to prefer matched
prompts over mismatched prompts, which are constructed by perturbing original
captions using a large language model. Our framework is general and compatible
with existing preference-based algorithms. We extend both DPO and KTO to our
setting, resulting in TDPO and TKTO. Quantitative and qualitative evaluations
across multiple benchmarks show that our methods consistently outperform their
original counterparts, delivering better human preference scores and improved
text-to-image alignment. Our Open-source code is available at
https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.