Parrot: Marco de Aprendizaje por Refuerzo Multi-Recompensa Pareto-Óptimo para la Generación de Texto a Imagen
Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to-Image Generation
January 11, 2024
Autores: Seung Hyun Lee, Yinxiao Li, Junjie Ke, Innfarn Yoo, Han Zhang, Jiahui Yu, Qifei Wang, Fei Deng, Glenn Entis, Junfeng He, Gang Li, Sangpil Kim, Irfan Essa, Feng Yang
cs.AI
Resumen
Trabajos recientes demuestran que el uso de aprendizaje por refuerzo (RL) con recompensas de calidad puede mejorar la calidad de las imágenes generadas en la generación de texto a imagen (T2I). Sin embargo, una simple agregación de múltiples recompensas puede causar una sobreoptimización en ciertas métricas y una degradación en otras, y es un desafío encontrar manualmente los pesos óptimos. Una estrategia efectiva para optimizar conjuntamente múltiples recompensas en RL para la generación T2I es altamente deseable. Este artículo presenta Parrot, un novedoso marco de RL multi-recompensa para la generación T2I. Mediante el uso de la selección óptima de Pareto por lotes, Parrot identifica automáticamente el equilibrio óptimo entre diferentes recompensas durante la optimización de RL en la generación T2I. Además, Parrot emplea un enfoque de optimización conjunta para el modelo T2I y la red de expansión de prompts, facilitando la generación de prompts de texto conscientes de la calidad, lo que mejora aún más la calidad final de la imagen. Para contrarrestar el posible olvido catastrófico del prompt original del usuario debido a la expansión del prompt, introducimos una guía centrada en el prompt original en el momento de la inferencia, asegurando que la imagen generada permanezca fiel a la entrada del usuario. Experimentos extensivos y un estudio de usuario demuestran que Parrot supera varios métodos de referencia en diversos criterios de calidad, incluyendo estética, preferencia humana, sentimiento de la imagen y alineación texto-imagen.
English
Recent works demonstrate that using reinforcement learning (RL) with quality
rewards can enhance the quality of generated images in text-to-image (T2I)
generation. However, a simple aggregation of multiple rewards may cause
over-optimization in certain metrics and degradation in others, and it is
challenging to manually find the optimal weights. An effective strategy to
jointly optimize multiple rewards in RL for T2I generation is highly desirable.
This paper introduces Parrot, a novel multi-reward RL framework for T2I
generation. Through the use of the batch-wise Pareto optimal selection, Parrot
automatically identifies the optimal trade-off among different rewards during
the RL optimization of the T2I generation. Additionally, Parrot employs a joint
optimization approach for the T2I model and the prompt expansion network,
facilitating the generation of quality-aware text prompts, thus further
enhancing the final image quality. To counteract the potential catastrophic
forgetting of the original user prompt due to prompt expansion, we introduce
original prompt centered guidance at inference time, ensuring that the
generated image remains faithful to the user input. Extensive experiments and a
user study demonstrate that Parrot outperforms several baseline methods across
various quality criteria, including aesthetics, human preference, image
sentiment, and text-image alignment.