MIRO: MultI-Reward-konditioniertes Pretraining verbessert T2I-Qualität und Effizienz
MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency
October 29, 2025
papers.authors: Nicolas Dufour, Lucas Degeorge, Arijit Ghosh, Vicky Kalogeiton, David Picard
cs.AI
papers.abstract
Aktuelle text-zu-bild-generative Modelle werden auf großen, unkuratierten Datensätzen trainiert, um vielfältige Generierungsfähigkeiten zu ermöglichen. Dies entspricht jedoch nicht unbedingt den Benutzerpräferenzen. Kürzlich wurden speziell Belohnungsmodelle entwickelt, um nachträglich generierte Bilder auszuwählen und an eine Belohnung, typischerweise die Benutzerpräferenz, anzupassen. Diese Verwerfung informativer Daten zusammen mit der Optimierung für eine einzelne Belohnung schadet tendenziell der Vielfalt, der semantischen Treue und der Effizienz. Anstelle dieser Nachbearbeitung schlagen wir vor, das Modell während des Trainings an mehrere Belohnungsmodelle zu konditionieren, damit das Modell Benutzerpräferenzen direkt erlernt. Wir zeigen, dass dies nicht nur die visuelle Qualität der generierten Bilder dramatisch verbessert, sondern auch das Training erheblich beschleunigt. Unsere vorgeschlagene Methode, MIRO genannt, erzielt state-of-the-art Leistungen im GenEval Compositional Benchmark und bei Benutzerpräferenz-Scores (PickAScore, ImageReward, HPSv2).
English
Current text-to-image generative models are trained on large uncurated
datasets to enable diverse generation capabilities. However, this does not
align well with user preferences. Recently, reward models have been
specifically designed to perform post-hoc selection of generated images and
align them to a reward, typically user preference. This discarding of
informative data together with the optimizing for a single reward tend to harm
diversity, semantic fidelity and efficiency. Instead of this post-processing,
we propose to condition the model on multiple reward models during training to
let the model learn user preferences directly. We show that this not only
dramatically improves the visual quality of the generated images but it also
significantly speeds up the training. Our proposed method, called MIRO,
achieves state-of-the-art performances on the GenEval compositional benchmark
and user-preference scores (PickAScore, ImageReward, HPSv2).