ChatPaper.aiChatPaper

MIRO: マルチ報酬条件付き事前学習によるテキストから画像生成の品質と効率の向上

MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency

October 29, 2025
著者: Nicolas Dufour, Lucas Degeorge, Arijit Ghosh, Vicky Kalogeiton, David Picard
cs.AI

要旨

現在のテキストから画像への生成モデルは、多様な生成能力を実現するために大規模な未精選データセットで学習されています。しかし、これはユーザーの嗜好と十分に一致していません。最近では、生成された画像を事後的に選択し、一般的にユーザー嗜好である報酬に合わせるために特別に設計された報酬モデルが登場しています。この情報豊富なデータの破棄と単一報酬の最適化は、多様性、意味的忠実性、効率性を損なう傾向があります。私たちは、この後処理の代わりに、学習中に複数の報酬モデルに基づいてモデルを条件付けし、モデルが直接ユーザー嗜好を学習することを提案します。これは、生成される画像の視覚的品質を劇的に改善するだけでなく、学習を大幅に高速化することを示します。MIROと呼ばれる私たちの提案手法は、GenEvalコンポジショナルベンチマークおよびユーザー嗜好スコア(PickAScore、ImageReward、HPSv2)において、state-of-the-artの性能を達成します。
English
Current text-to-image generative models are trained on large uncurated datasets to enable diverse generation capabilities. However, this does not align well with user preferences. Recently, reward models have been specifically designed to perform post-hoc selection of generated images and align them to a reward, typically user preference. This discarding of informative data together with the optimizing for a single reward tend to harm diversity, semantic fidelity and efficiency. Instead of this post-processing, we propose to condition the model on multiple reward models during training to let the model learn user preferences directly. We show that this not only dramatically improves the visual quality of the generated images but it also significantly speeds up the training. Our proposed method, called MIRO, achieves state-of-the-art performances on the GenEval compositional benchmark and user-preference scores (PickAScore, ImageReward, HPSv2).
PDF163December 2, 2025