Parrot : Cadre d'apprentissage par renforcement multi-récompense Pareto-optimal pour la génération de texte à image
Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to-Image Generation
January 11, 2024
Auteurs: Seung Hyun Lee, Yinxiao Li, Junjie Ke, Innfarn Yoo, Han Zhang, Jiahui Yu, Qifei Wang, Fei Deng, Glenn Entis, Junfeng He, Gang Li, Sangpil Kim, Irfan Essa, Feng Yang
cs.AI
Résumé
Les travaux récents démontrent que l'utilisation de l'apprentissage par renforcement (RL) avec des récompenses de qualité peut améliorer la qualité des images générées dans la génération de texte à image (T2I). Cependant, une simple agrégation de multiples récompenses peut entraîner une sur-optimisation de certaines métriques et une dégradation d'autres, et il est difficile de trouver manuellement les poids optimaux. Une stratégie efficace pour optimiser conjointement plusieurs récompenses en RL pour la génération T2I est fortement souhaitable. Cet article présente Parrot, un nouveau cadre de RL multi-récompenses pour la génération T2I. Grâce à l'utilisation de la sélection Pareto optimale par lots, Parrot identifie automatiquement le compromis optimal entre différentes récompenses lors de l'optimisation RL de la génération T2I. De plus, Parrot emploie une approche d'optimisation conjointe pour le modèle T2I et le réseau d'expansion de prompts, facilitant la génération de prompts textuels conscients de la qualité, améliorant ainsi davantage la qualité finale de l'image. Pour contrer l'oubli catastrophique potentiel du prompt utilisateur original dû à l'expansion de prompt, nous introduisons un guidage centré sur le prompt original au moment de l'inférence, garantissant que l'image générée reste fidèle à l'entrée de l'utilisateur. Des expériences approfondies et une étude utilisateur démontrent que Parrot surpasse plusieurs méthodes de référence selon divers critères de qualité, incluant l'esthétique, la préférence humaine, le sentiment de l'image et l'alignement texte-image.
English
Recent works demonstrate that using reinforcement learning (RL) with quality
rewards can enhance the quality of generated images in text-to-image (T2I)
generation. However, a simple aggregation of multiple rewards may cause
over-optimization in certain metrics and degradation in others, and it is
challenging to manually find the optimal weights. An effective strategy to
jointly optimize multiple rewards in RL for T2I generation is highly desirable.
This paper introduces Parrot, a novel multi-reward RL framework for T2I
generation. Through the use of the batch-wise Pareto optimal selection, Parrot
automatically identifies the optimal trade-off among different rewards during
the RL optimization of the T2I generation. Additionally, Parrot employs a joint
optimization approach for the T2I model and the prompt expansion network,
facilitating the generation of quality-aware text prompts, thus further
enhancing the final image quality. To counteract the potential catastrophic
forgetting of the original user prompt due to prompt expansion, we introduce
original prompt centered guidance at inference time, ensuring that the
generated image remains faithful to the user input. Extensive experiments and a
user study demonstrate that Parrot outperforms several baseline methods across
various quality criteria, including aesthetics, human preference, image
sentiment, and text-image alignment.