Allineamento "Free Lunch" dei Modelli di Diffusione Testo-Immagine senza Coppie di Immagini Preferite
Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs
September 30, 2025
Autori: Jia Jun Cheng Xian, Muchen Li, Haotian Yang, Xin Tao, Pengfei Wan, Leonid Sigal, Renjie Liao
cs.AI
Abstract
I recenti progressi nei modelli di diffusione per la generazione di immagini da testo (text-to-image, T2I) hanno portato a un notevole successo nella creazione di immagini di alta qualità a partire da prompt testuali. Tuttavia, garantire un allineamento accurato tra il testo e l'immagine generata rimane una sfida significativa per i modelli di diffusione all'avanguardia. Per affrontare questo problema, gli studi esistenti utilizzano l'apprendimento per rinforzo con feedback umano (RLHF) per allineare gli output T2I alle preferenze umane. Questi metodi, tuttavia, si basano direttamente su dati di preferenza di immagini accoppiate o richiedono una funzione di ricompensa appresa, entrambi fortemente dipendenti da annotazioni umane costose e di alta qualità, e quindi affrontano limitazioni di scalabilità. In questo lavoro, introduciamo l'ottimizzazione delle preferenze testuali (Text Preference Optimization, TPO), un framework che consente l'allineamento "a costo zero" dei modelli T2I, raggiungendo l'allineamento senza la necessità di dati di preferenza di immagini accoppiate. TPO funziona addestrando il modello a preferire prompt corrispondenti rispetto a prompt non corrispondenti, che vengono costruiti perturbando le descrizioni originali utilizzando un modello linguistico di grandi dimensioni. Il nostro framework è generale e compatibile con gli algoritmi esistenti basati sulle preferenze. Estendiamo sia DPO che KTO al nostro contesto, ottenendo TDPO e TKTO. Valutazioni quantitative e qualitative su più benchmark dimostrano che i nostri metodi superano costantemente le loro controparti originali, fornendo punteggi di preferenza umana migliori e un migliore allineamento testo-immagine. Il nostro codice open-source è disponibile all'indirizzo https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.
English
Recent advances in diffusion-based text-to-image (T2I) models have led to
remarkable success in generating high-quality images from textual prompts.
However, ensuring accurate alignment between the text and the generated image
remains a significant challenge for state-of-the-art diffusion models. To
address this, existing studies employ reinforcement learning with human
feedback (RLHF) to align T2I outputs with human preferences. These methods,
however, either rely directly on paired image preference data or require a
learned reward function, both of which depend heavily on costly, high-quality
human annotations and thus face scalability limitations. In this work, we
introduce Text Preference Optimization (TPO), a framework that enables
"free-lunch" alignment of T2I models, achieving alignment without the need for
paired image preference data. TPO works by training the model to prefer matched
prompts over mismatched prompts, which are constructed by perturbing original
captions using a large language model. Our framework is general and compatible
with existing preference-based algorithms. We extend both DPO and KTO to our
setting, resulting in TDPO and TKTO. Quantitative and qualitative evaluations
across multiple benchmarks show that our methods consistently outperform their
original counterparts, delivering better human preference scores and improved
text-to-image alignment. Our Open-source code is available at
https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.