Alignement de modèles de diffusion texte-image sans nécessiter de paires d'images préférentielles

papers.abstract

Les récents progrès des modèles de génération d'images à partir de texte (T2I) basés sur la diffusion ont conduit à des succès remarquables dans la création d'images de haute qualité à partir de descriptions textuelles. Cependant, garantir un alignement précis entre le texte et l'image générée reste un défi majeur pour les modèles de diffusion de pointe. Pour y remédier, les études existantes utilisent l'apprentissage par renforcement avec feedback humain (RLHF) pour aligner les sorties T2I avec les préférences humaines. Ces méthodes s'appuient soit directement sur des données de préférence d'images appariées, soit sur une fonction de récompense apprise, toutes deux dépendant fortement d'annotations humaines coûteuses et de haute qualité, ce qui pose des limites en termes d'évolutivité. Dans ce travail, nous introduisons l'Optimisation des Préférences Textuelles (TPO), un cadre qui permet un alignement "sans coût supplémentaire" des modèles T2I, en atteignant cet alignement sans nécessiter de données de préférence d'images appariées. TPO fonctionne en entraînant le modèle à préférer les descriptions correspondantes par rapport aux descriptions non correspondantes, qui sont construites en perturbant les légendes originales à l'aide d'un grand modèle de langage. Notre cadre est général et compatible avec les algorithmes existants basés sur les préférences. Nous étendons à la fois DPO et KTO à notre contexte, ce qui donne TDPO et TKTO. Les évaluations quantitatives et qualitatives sur plusieurs benchmarks montrent que nos méthodes surpassent systématiquement leurs versions originales, offrant de meilleurs scores de préférence humaine et un meilleur alignement texte-image. Notre code open-source est disponible à l'adresse https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.

English

Recent advances in diffusion-based text-to-image (T2I) models have led to remarkable success in generating high-quality images from textual prompts. However, ensuring accurate alignment between the text and the generated image remains a significant challenge for state-of-the-art diffusion models. To address this, existing studies employ reinforcement learning with human feedback (RLHF) to align T2I outputs with human preferences. These methods, however, either rely directly on paired image preference data or require a learned reward function, both of which depend heavily on costly, high-quality human annotations and thus face scalability limitations. In this work, we introduce Text Preference Optimization (TPO), a framework that enables "free-lunch" alignment of T2I models, achieving alignment without the need for paired image preference data. TPO works by training the model to prefer matched prompts over mismatched prompts, which are constructed by perturbing original captions using a large language model. Our framework is general and compatible with existing preference-based algorithms. We extend both DPO and KTO to our setting, resulting in TDPO and TKTO. Quantitative and qualitative evaluations across multiple benchmarks show that our methods consistently outperform their original counterparts, delivering better human preference scores and improved text-to-image alignment. Our Open-source code is available at https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.

Alignement de modèles de diffusion texte-image sans nécessiter de paires d'images préférentielles

Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs

papers.abstract

Support