선호 이미지 쌍 없이 텍스트-이미지 확산 모델의 무료 점심 정렬
Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs
September 30, 2025
저자: Jia Jun Cheng Xian, Muchen Li, Haotian Yang, Xin Tao, Pengfei Wan, Leonid Sigal, Renjie Liao
cs.AI
초록
최근 확산 기반 텍스트-이미지(T2I) 모델의 발전으로 텍스트 프롬프트에서 고품질 이미지를 생성하는 데 있어 놀라운 성과를 거두었습니다. 그러나 최첨단 확산 모델의 경우 텍스트와 생성된 이미지 간의 정확한 정렬을 보장하는 것은 여전히 중요한 과제로 남아 있습니다. 이를 해결하기 위해 기존 연구들은 인간 피드백을 활용한 강화 학습(RLHF)을 사용하여 T2I 출력을 인간의 선호도와 정렬합니다. 이러한 방법들은 이미지 선호도 데이터 쌍에 직접 의존하거나 학습된 보상 함수를 필요로 하는데, 이 둘 모두 비용이 많이 들고 고품질의 인간 주석에 크게 의존하므로 확장성에 한계가 있습니다. 본 연구에서는 "무료 점심(free-lunch)" 정렬을 가능하게 하는 텍스트 선호도 최적화(Text Preference Optimization, TPO) 프레임워크를 소개합니다. TPO는 이미지 선호도 데이터 쌍 없이도 정렬을 달성할 수 있습니다. TPO는 원본 캡션을 대규모 언어 모델을 사용하여 변형시켜 생성된 불일치 프롬프트보다 일치하는 프롬프트를 선호하도록 모델을 학습시킵니다. 우리의 프레임워크는 일반적이며 기존의 선호도 기반 알고리즘과 호환됩니다. 우리는 DPO와 KTO를 우리의 설정에 맞게 확장하여 TDPO와 TKTO를 개발했습니다. 여러 벤치마크에서의 정량적 및 정성적 평가 결과, 우리의 방법은 원본 대비 일관되게 우수한 성능을 보이며 더 나은 인간 선호도 점수와 개선된 텍스트-이미지 정렬을 제공합니다. 우리의 오픈소스 코드는 https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment에서 확인할 수 있습니다.
English
Recent advances in diffusion-based text-to-image (T2I) models have led to
remarkable success in generating high-quality images from textual prompts.
However, ensuring accurate alignment between the text and the generated image
remains a significant challenge for state-of-the-art diffusion models. To
address this, existing studies employ reinforcement learning with human
feedback (RLHF) to align T2I outputs with human preferences. These methods,
however, either rely directly on paired image preference data or require a
learned reward function, both of which depend heavily on costly, high-quality
human annotations and thus face scalability limitations. In this work, we
introduce Text Preference Optimization (TPO), a framework that enables
"free-lunch" alignment of T2I models, achieving alignment without the need for
paired image preference data. TPO works by training the model to prefer matched
prompts over mismatched prompts, which are constructed by perturbing original
captions using a large language model. Our framework is general and compatible
with existing preference-based algorithms. We extend both DPO and KTO to our
setting, resulting in TDPO and TKTO. Quantitative and qualitative evaluations
across multiple benchmarks show that our methods consistently outperform their
original counterparts, delivering better human preference scores and improved
text-to-image alignment. Our Open-source code is available at
https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.