MIRO: L'addestramento preliminare condizionato a ricompense multiple migliora qualità ed efficienza nella generazione di immagini da testo

Abstract

I modelli generativi testo-immagine attuali vengono addestrati su grandi dataset non curati per abilitare capacità di generazione diversificate. Tuttavia, questo approccio non si allinea bene con le preferenze degli utenti. Recentemente, sono stati sviluppati modelli di reward specificamente progettati per eseguire una selezione post-hoc delle immagini generate e allinearle a una ricompensa, tipicamente la preferenza dell'utente. Questo scarto di dati informativi, unito all'ottimizzazione per una singola ricompensa, tende a danneggiare la diversità, la fedeltà semantica e l'efficienza. Invece di questa post-elaborazione, proponiamo di condizionare il modello su più modelli di reward durante l'addestramento, permettendo al modello di apprendere direttamente le preferenze degli utenti. Dimostriamo che ciò non solo migliora drasticamente la qualità visiva delle immagini generate, ma accelera significativamente anche l'addestramento. Il nostro metodo proposto, chiamato MIRO, raggiunge prestazioni all'avanguardia sul benchmark compositivo GenEval e sui punteggi di preferenza utente (PickAScore, ImageReward, HPSv2).

English

Current text-to-image generative models are trained on large uncurated datasets to enable diverse generation capabilities. However, this does not align well with user preferences. Recently, reward models have been specifically designed to perform post-hoc selection of generated images and align them to a reward, typically user preference. This discarding of informative data together with the optimizing for a single reward tend to harm diversity, semantic fidelity and efficiency. Instead of this post-processing, we propose to condition the model on multiple reward models during training to let the model learn user preferences directly. We show that this not only dramatically improves the visual quality of the generated images but it also significantly speeds up the training. Our proposed method, called MIRO, achieves state-of-the-art performances on the GenEval compositional benchmark and user-preference scores (PickAScore, ImageReward, HPSv2).

MIRO: L'addestramento preliminare condizionato a ricompense multiple migliora qualità ed efficienza nella generazione di immagini da testo

MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency

Abstract

Support