MIRO: El preentrenamiento condicionado por múltiples recompensas mejora la calidad y eficiencia de la generación de imágenes a partir de texto
MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency
October 29, 2025
Autores: Nicolas Dufour, Lucas Degeorge, Arijit Ghosh, Vicky Kalogeiton, David Picard
cs.AI
Resumen
Los modelos generativos actuales de texto a imagen se entrenan con grandes conjuntos de datos no seleccionados para permitir capacidades de generación diversas. Sin embargo, esto no se alinea bien con las preferencias de los usuarios. Recientemente, se han diseñado modelos de recompensa específicos para realizar una selección *post-hoc* de las imágenes generadas y alinearlas con una recompensa, típicamente la preferencia del usuario. Este descarte de datos informativos, junto con la optimización para una única recompensa, tiende a perjudicar la diversidad, la fidelidad semántica y la eficiencia. En lugar de este postprocesado, proponemos condicionar el modelo en múltiples modelos de recompensa durante el entrenamiento para permitir que el modelo aprenda las preferencias del usuario directamente. Demostramos que esto no solo mejora drásticamente la calidad visual de las imágenes generadas, sino que también acelera significativamente el entrenamiento. Nuestro método propuesto, denominado MIRO, logra un rendimiento de vanguardia en el benchmark compositivo GenEval y en las puntuaciones de preferencia del usuario (PickAScore, ImageReward, HPSv2).
English
Current text-to-image generative models are trained on large uncurated
datasets to enable diverse generation capabilities. However, this does not
align well with user preferences. Recently, reward models have been
specifically designed to perform post-hoc selection of generated images and
align them to a reward, typically user preference. This discarding of
informative data together with the optimizing for a single reward tend to harm
diversity, semantic fidelity and efficiency. Instead of this post-processing,
we propose to condition the model on multiple reward models during training to
let the model learn user preferences directly. We show that this not only
dramatically improves the visual quality of the generated images but it also
significantly speeds up the training. Our proposed method, called MIRO,
achieves state-of-the-art performances on the GenEval compositional benchmark
and user-preference scores (PickAScore, ImageReward, HPSv2).