ChatPaper.aiChatPaper

MIRO : le pré-entraînement conditionné par MultI-Récompense améliore la qualité et l'efficacité de la génération de texte vers image

MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency

October 29, 2025
papers.authors: Nicolas Dufour, Lucas Degeorge, Arijit Ghosh, Vicky Kalogeiton, David Picard
cs.AI

papers.abstract

Les modèles génératifs texte-image actuels sont entraînés sur de vastes ensembles de données non-curatés pour permettre des capacités de génération diversifiées. Cependant, cette approche ne correspond pas parfaitement aux préférences des utilisateurs. Récemment, des modèles de récompense ont été spécifiquement conçus pour effectuer une sélection a posteriori des images générées et les aligner sur une récompense, généralement les préférences utilisateur. Ce rejet de données informatives, couplé à l'optimisation pour une récompense unique, tend à nuire à la diversité, à la fidélité sémantique et à l'efficacité. Plutôt que ce post-traitement, nous proposons de conditionner le modèle sur plusieurs modèles de récompense pendant l'entraînement, permettant au modèle d'apprendre directement les préférences utilisateur. Nous montrons que cela améliore non seulement considérablement la qualité visuelle des images générées, mais accélère aussi significativement l'entraînement. Notre méthode proposée, appelée MIRO, obtient des performances à l'état de l'art sur le benchmark compositionnel GenEval et les scores de préférence utilisateur (PickAScore, ImageReward, HPSv2).
English
Current text-to-image generative models are trained on large uncurated datasets to enable diverse generation capabilities. However, this does not align well with user preferences. Recently, reward models have been specifically designed to perform post-hoc selection of generated images and align them to a reward, typically user preference. This discarding of informative data together with the optimizing for a single reward tend to harm diversity, semantic fidelity and efficiency. Instead of this post-processing, we propose to condition the model on multiple reward models during training to let the model learn user preferences directly. We show that this not only dramatically improves the visual quality of the generated images but it also significantly speeds up the training. Our proposed method, called MIRO, achieves state-of-the-art performances on the GenEval compositional benchmark and user-preference scores (PickAScore, ImageReward, HPSv2).
PDF163December 2, 2025