MIRO: 다중 보상 조건화 사전 학습이 T2I 품질과 효율성을 향상시킵니다
MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency
October 29, 2025
저자: Nicolas Dufour, Lucas Degeorge, Arijit Ghosh, Vicky Kalogeiton, David Picard
cs.AI
초록
현재 텍스트-이미지 생성 모델은 다양한 생성 능력을 구현하기 위해 대규모 비선별 데이터셋으로 학습됩니다. 그러나 이는 사용자 선호도와 잘 일치하지 않습니다. 최근에는 생성된 이미지의 사후 선택을 수행하고 일반적으로 사용자 선호도에 부합하도록 정렬하기 위해 특별히 설계된 보상 모델이 등장했습니다. 이러한 정보성 데이터의 폐기와 단일 보상 최적화는 다양성, 의미적 충실도 및 효율성을 저해하는 경향이 있습니다. 이러한 사후 처리 대신, 우리는 학습 과정에서 다중 보상 모델을 조건으로 설정하여 모델이 직접 사용자 선호도를 학습하도록 제안합니다. 이 방법이 생성된 이미지의 시각적 품질을 획기적으로 향상시킬 뿐만 아니라 학습 속도도 크게 개선함을 보여줍니다. MIRO로 명명된 우리의 제안 방법은 GenEval 구성 벤치마크와 사용자 선호도 점수(PickAScore, ImageReward, HPSv2)에서 최첨단 성능을 달성합니다.
English
Current text-to-image generative models are trained on large uncurated
datasets to enable diverse generation capabilities. However, this does not
align well with user preferences. Recently, reward models have been
specifically designed to perform post-hoc selection of generated images and
align them to a reward, typically user preference. This discarding of
informative data together with the optimizing for a single reward tend to harm
diversity, semantic fidelity and efficiency. Instead of this post-processing,
we propose to condition the model on multiple reward models during training to
let the model learn user preferences directly. We show that this not only
dramatically improves the visual quality of the generated images but it also
significantly speeds up the training. Our proposed method, called MIRO,
achieves state-of-the-art performances on the GenEval compositional benchmark
and user-preference scores (PickAScore, ImageReward, HPSv2).