MIRO: マルチ報酬条件付き事前学習によるテキストから画像生成の品質と効率の向上
MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency
October 29, 2025
著者: Nicolas Dufour, Lucas Degeorge, Arijit Ghosh, Vicky Kalogeiton, David Picard
cs.AI
要旨
現在のテキストから画像への生成モデルは、多様な生成能力を実現するために大規模な未精選データセットで学習されています。しかし、これはユーザーの嗜好と十分に一致していません。最近では、生成された画像を事後的に選択し、一般的にユーザー嗜好である報酬に合わせるために特別に設計された報酬モデルが登場しています。この情報豊富なデータの破棄と単一報酬の最適化は、多様性、意味的忠実性、効率性を損なう傾向があります。私たちは、この後処理の代わりに、学習中に複数の報酬モデルに基づいてモデルを条件付けし、モデルが直接ユーザー嗜好を学習することを提案します。これは、生成される画像の視覚的品質を劇的に改善するだけでなく、学習を大幅に高速化することを示します。MIROと呼ばれる私たちの提案手法は、GenEvalコンポジショナルベンチマークおよびユーザー嗜好スコア(PickAScore、ImageReward、HPSv2)において、state-of-the-artの性能を達成します。
English
Current text-to-image generative models are trained on large uncurated
datasets to enable diverse generation capabilities. However, this does not
align well with user preferences. Recently, reward models have been
specifically designed to perform post-hoc selection of generated images and
align them to a reward, typically user preference. This discarding of
informative data together with the optimizing for a single reward tend to harm
diversity, semantic fidelity and efficiency. Instead of this post-processing,
we propose to condition the model on multiple reward models during training to
let the model learn user preferences directly. We show that this not only
dramatically improves the visual quality of the generated images but it also
significantly speeds up the training. Our proposed method, called MIRO,
achieves state-of-the-art performances on the GenEval compositional benchmark
and user-preference scores (PickAScore, ImageReward, HPSv2).