Alignement de modèles de diffusion texte-image sans nécessiter de paires d'images préférentielles
Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs
September 30, 2025
papers.authors: Jia Jun Cheng Xian, Muchen Li, Haotian Yang, Xin Tao, Pengfei Wan, Leonid Sigal, Renjie Liao
cs.AI
papers.abstract
Les récents progrès des modèles de génération d'images à partir de texte (T2I) basés sur la diffusion ont conduit à des succès remarquables dans la création d'images de haute qualité à partir de descriptions textuelles. Cependant, garantir un alignement précis entre le texte et l'image générée reste un défi majeur pour les modèles de diffusion de pointe. Pour y remédier, les études existantes utilisent l'apprentissage par renforcement avec feedback humain (RLHF) pour aligner les sorties T2I avec les préférences humaines. Ces méthodes s'appuient soit directement sur des données de préférence d'images appariées, soit sur une fonction de récompense apprise, toutes deux dépendant fortement d'annotations humaines coûteuses et de haute qualité, ce qui pose des limites en termes d'évolutivité. Dans ce travail, nous introduisons l'Optimisation des Préférences Textuelles (TPO), un cadre qui permet un alignement "sans coût supplémentaire" des modèles T2I, en atteignant cet alignement sans nécessiter de données de préférence d'images appariées. TPO fonctionne en entraînant le modèle à préférer les descriptions correspondantes par rapport aux descriptions non correspondantes, qui sont construites en perturbant les légendes originales à l'aide d'un grand modèle de langage. Notre cadre est général et compatible avec les algorithmes existants basés sur les préférences. Nous étendons à la fois DPO et KTO à notre contexte, ce qui donne TDPO et TKTO. Les évaluations quantitatives et qualitatives sur plusieurs benchmarks montrent que nos méthodes surpassent systématiquement leurs versions originales, offrant de meilleurs scores de préférence humaine et un meilleur alignement texte-image. Notre code open-source est disponible à l'adresse https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.
English
Recent advances in diffusion-based text-to-image (T2I) models have led to
remarkable success in generating high-quality images from textual prompts.
However, ensuring accurate alignment between the text and the generated image
remains a significant challenge for state-of-the-art diffusion models. To
address this, existing studies employ reinforcement learning with human
feedback (RLHF) to align T2I outputs with human preferences. These methods,
however, either rely directly on paired image preference data or require a
learned reward function, both of which depend heavily on costly, high-quality
human annotations and thus face scalability limitations. In this work, we
introduce Text Preference Optimization (TPO), a framework that enables
"free-lunch" alignment of T2I models, achieving alignment without the need for
paired image preference data. TPO works by training the model to prefer matched
prompts over mismatched prompts, which are constructed by perturbing original
captions using a large language model. Our framework is general and compatible
with existing preference-based algorithms. We extend both DPO and KTO to our
setting, resulting in TDPO and TKTO. Quantitative and qualitative evaluations
across multiple benchmarks show that our methods consistently outperform their
original counterparts, delivering better human preference scores and improved
text-to-image alignment. Our Open-source code is available at
https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.