MIRO: Pré-treinamento condicionado por Múltiplas Recompensas melhora a qualidade e eficiência de T2I

Resumo

Os modelos generativos de texto para imagem atuais são treinados em grandes conjuntos de dados não curados para permitir capacidades de geração diversificadas. No entanto, isto não se alinha bem com as preferências dos utilizadores. Recentemente, foram desenvolvidos modelos de recompensa concebidos especificamente para realizar uma seleção *post-hoc* de imagens geradas e alinhá-las com uma recompensa, tipicamente a preferência do utilizador. Este descarte de dados informativos, juntamente com a otimização para uma única recompensa, tende a prejudicar a diversidade, a fidelidade semântica e a eficiência. Em vez deste pós-processamento, propomos condicionar o modelo em múltiplos modelos de recompensa durante o treino, permitindo que o modelo aprenda as preferências dos utilizadores diretamente. Demonstramos que isto não só melhora drasticamente a qualidade visual das imagens geradas, como também acelera significativamente o treino. O nosso método proposto, denominado MIRO, atinge desempenhos de última geração no benchmark composicional GenEval e em métricas de preferência do utilizador (PickAScore, ImageReward, HPSv2).

English

Current text-to-image generative models are trained on large uncurated datasets to enable diverse generation capabilities. However, this does not align well with user preferences. Recently, reward models have been specifically designed to perform post-hoc selection of generated images and align them to a reward, typically user preference. This discarding of informative data together with the optimizing for a single reward tend to harm diversity, semantic fidelity and efficiency. Instead of this post-processing, we propose to condition the model on multiple reward models during training to let the model learn user preferences directly. We show that this not only dramatically improves the visual quality of the generated images but it also significantly speeds up the training. Our proposed method, called MIRO, achieves state-of-the-art performances on the GenEval compositional benchmark and user-preference scores (PickAScore, ImageReward, HPSv2).

MIRO: Pré-treinamento condicionado por Múltiplas Recompensas melhora a qualidade e eficiência de T2I

MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency

Resumo

Support