Выравнивание моделей диффузии текст-изображение без использования пар изображений с предпочтениями
Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs
September 30, 2025
Авторы: Jia Jun Cheng Xian, Muchen Li, Haotian Yang, Xin Tao, Pengfei Wan, Leonid Sigal, Renjie Liao
cs.AI
Аннотация
Последние достижения в области диффузионных моделей преобразования текста в изображение (T2I) привели к значительным успехам в генерации высококачественных изображений на основе текстовых запросов. Однако обеспечение точного соответствия между текстом и сгенерированным изображением остается серьезной проблемой для современных диффузионных моделей. Для решения этой задачи существующие исследования используют обучение с подкреплением на основе человеческой обратной связи (RLHF) для согласования выходных данных T2I с предпочтениями людей. Эти методы либо напрямую полагаются на парные данные о предпочтениях изображений, либо требуют обученной функции вознаграждения, что в обоих случаях сильно зависит от дорогостоящих и высококачественных аннотаций, созданных людьми, что ограничивает их масштабируемость. В данной работе мы представляем Оптимизацию текстовых предпочтений (TPO) — фреймворк, который позволяет достичь согласования моделей T2I без необходимости использования парных данных о предпочтениях изображений. TPO работает путем обучения модели предпочитать соответствующие запросы над несоответствующими, которые создаются путем модификации исходных описаний с использованием крупной языковой модели. Наш фреймворк является универсальным и совместим с существующими алгоритмами, основанными на предпочтениях. Мы адаптируем как DPO, так и KTO к нашей задаче, получая TDPO и TKTO. Количественные и качественные оценки на нескольких бенчмарках показывают, что наши методы стабильно превосходят оригинальные подходы, демонстрируя более высокие оценки человеческих предпочтений и улучшенное соответствие текста и изображения. Наш исходный код доступен по адресу https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.
English
Recent advances in diffusion-based text-to-image (T2I) models have led to
remarkable success in generating high-quality images from textual prompts.
However, ensuring accurate alignment between the text and the generated image
remains a significant challenge for state-of-the-art diffusion models. To
address this, existing studies employ reinforcement learning with human
feedback (RLHF) to align T2I outputs with human preferences. These methods,
however, either rely directly on paired image preference data or require a
learned reward function, both of which depend heavily on costly, high-quality
human annotations and thus face scalability limitations. In this work, we
introduce Text Preference Optimization (TPO), a framework that enables
"free-lunch" alignment of T2I models, achieving alignment without the need for
paired image preference data. TPO works by training the model to prefer matched
prompts over mismatched prompts, which are constructed by perturbing original
captions using a large language model. Our framework is general and compatible
with existing preference-based algorithms. We extend both DPO and KTO to our
setting, resulting in TDPO and TKTO. Quantitative and qualitative evaluations
across multiple benchmarks show that our methods consistently outperform their
original counterparts, delivering better human preference scores and improved
text-to-image alignment. Our Open-source code is available at
https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.