Alineación de Almuerzo Gratis en Modelos de Difusión de Texto a Imagen sin Pares de Imágenes de Preferencia
Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs
September 30, 2025
Autores: Jia Jun Cheng Xian, Muchen Li, Haotian Yang, Xin Tao, Pengfei Wan, Leonid Sigal, Renjie Liao
cs.AI
Resumen
Los recientes avances en los modelos de texto a imagen (T2I) basados en difusión han logrado un éxito notable en la generación de imágenes de alta calidad a partir de indicaciones textuales. Sin embargo, garantizar una alineación precisa entre el texto y la imagen generada sigue siendo un desafío significativo para los modelos de difusión más avanzados. Para abordar esto, estudios existentes emplean aprendizaje por refuerzo con retroalimentación humana (RLHF) para alinear las salidas de T2I con las preferencias humanas. Estos métodos, sin embargo, dependen directamente de datos de preferencia de imágenes emparejadas o requieren una función de recompensa aprendida, ambos aspectos que dependen en gran medida de anotaciones humanas costosas y de alta calidad, lo que enfrenta limitaciones de escalabilidad. En este trabajo, presentamos la Optimización de Preferencias de Texto (TPO), un marco que permite la alineación "sin costo adicional" de los modelos T2I, logrando la alineación sin la necesidad de datos de preferencia de imágenes emparejadas. TPO funciona entrenando al modelo para preferir indicaciones coincidentes sobre indicaciones no coincidentes, las cuales se construyen perturbando las descripciones originales utilizando un modelo de lenguaje grande. Nuestro marco es general y compatible con algoritmos basados en preferencias existentes. Extendemos tanto DPO como KTO a nuestro entorno, resultando en TDPO y TKTO. Las evaluaciones cuantitativas y cualitativas en múltiples benchmarks muestran que nuestros métodos superan consistentemente a sus contrapartes originales, ofreciendo mejores puntajes de preferencia humana y una alineación mejorada entre texto e imagen. Nuestro código de código abierto está disponible en https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.
English
Recent advances in diffusion-based text-to-image (T2I) models have led to
remarkable success in generating high-quality images from textual prompts.
However, ensuring accurate alignment between the text and the generated image
remains a significant challenge for state-of-the-art diffusion models. To
address this, existing studies employ reinforcement learning with human
feedback (RLHF) to align T2I outputs with human preferences. These methods,
however, either rely directly on paired image preference data or require a
learned reward function, both of which depend heavily on costly, high-quality
human annotations and thus face scalability limitations. In this work, we
introduce Text Preference Optimization (TPO), a framework that enables
"free-lunch" alignment of T2I models, achieving alignment without the need for
paired image preference data. TPO works by training the model to prefer matched
prompts over mismatched prompts, which are constructed by perturbing original
captions using a large language model. Our framework is general and compatible
with existing preference-based algorithms. We extend both DPO and KTO to our
setting, resulting in TDPO and TKTO. Quantitative and qualitative evaluations
across multiple benchmarks show that our methods consistently outperform their
original counterparts, delivering better human preference scores and improved
text-to-image alignment. Our Open-source code is available at
https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.