ChatPaper.aiChatPaper

MIRO: MultI-Reward cOnditioned pretraining verbetert T2I-kwaliteit en efficiëntie

MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency

October 29, 2025
Auteurs: Nicolas Dufour, Lucas Degeorge, Arijit Ghosh, Vicky Kalogeiton, David Picard
cs.AI

Samenvatting

Huidige generatieve tekst-naar-beeldmodellen worden getraind op grote, ongecurateerde datasets om diverse generatiemogelijkheden mogelijk te maken. Dit sluit echter niet goed aan bij gebruikersvoorkeuren. Recent zijn beloningsmodellen specifiek ontworpen om achteraf gemaakte afbeeldingen te selecteren en af te stemmen op een beloning, doorgaans gebruikersvoorkeur. Deze verwerping van informatieve gegevens, gecombineerd met het optimaliseren voor een enkele beloning, heeft vaak een negatief effect op de diversiteit, semantische trouw en efficiëntie. In plaats van deze nabewerking stellen wij voor om het model tijdens de training te conditioneren op meerdere beloningsmodellen, zodat het model gebruikersvoorkeuren direct kan aanleren. Wij tonen aan dat dit niet alleen de visuele kwaliteit van de gegenereerde afbeeldingen aanzienlijk verbetert, maar ook de trainingssnelheid significant verhoogt. Onze voorgestelde methode, genaamd MIRO, behaalt state-of-the-art prestaties op de GenEval compositionele benchmark en gebruikersvoorkeurscores (PickAScore, ImageReward, HPSv2).
English
Current text-to-image generative models are trained on large uncurated datasets to enable diverse generation capabilities. However, this does not align well with user preferences. Recently, reward models have been specifically designed to perform post-hoc selection of generated images and align them to a reward, typically user preference. This discarding of informative data together with the optimizing for a single reward tend to harm diversity, semantic fidelity and efficiency. Instead of this post-processing, we propose to condition the model on multiple reward models during training to let the model learn user preferences directly. We show that this not only dramatically improves the visual quality of the generated images but it also significantly speeds up the training. Our proposed method, called MIRO, achieves state-of-the-art performances on the GenEval compositional benchmark and user-preference scores (PickAScore, ImageReward, HPSv2).
PDF163December 2, 2025