Parrot: Парето-оптимальная фреймворк для обучения с подкреплением с множественными наградами в задаче генерации изображений по тексту
Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to-Image Generation
January 11, 2024
Авторы: Seung Hyun Lee, Yinxiao Li, Junjie Ke, Innfarn Yoo, Han Zhang, Jiahui Yu, Qifei Wang, Fei Deng, Glenn Entis, Junfeng He, Gang Li, Sangpil Kim, Irfan Essa, Feng Yang
cs.AI
Аннотация
Недавние исследования показывают, что использование обучения с подкреплением (RL) с качественными наградами может улучшить качество генерируемых изображений в задаче генерации изображений по тексту (T2I). Однако простое агрегирование нескольких наград может привести к избыточной оптимизации по одним метрикам и ухудшению по другим, а ручной поиск оптимальных весов является сложной задачей. Эффективная стратегия для совместной оптимизации нескольких наград в RL для генерации T2I крайне востребована. В данной статье представлен Parrot, новый многозадачный RL-фреймворк для генерации T2I. С использованием пакетного выбора по Парето-оптимальности Parrot автоматически определяет оптимальный компромисс между различными наградами в процессе RL-оптимизации генерации T2I. Кроме того, Parrot применяет совместный подход к оптимизации модели T2I и сети расширения промптов, что способствует генерации текстовых промптов, учитывающих качество, и тем самым дополнительно улучшает итоговое качество изображений. Чтобы предотвратить возможное катастрофическое забывание исходного пользовательского промпта из-за расширения промптов, мы вводим ориентацию на исходный промпт на этапе вывода, что гарантирует соответствие сгенерированного изображения введённому пользователем тексту. Многочисленные эксперименты и пользовательское исследование демонстрируют, что Parrot превосходит несколько базовых методов по различным критериям качества, включая эстетику, предпочтения людей, эмоциональную окраску изображений и соответствие текста и изображения.
English
Recent works demonstrate that using reinforcement learning (RL) with quality
rewards can enhance the quality of generated images in text-to-image (T2I)
generation. However, a simple aggregation of multiple rewards may cause
over-optimization in certain metrics and degradation in others, and it is
challenging to manually find the optimal weights. An effective strategy to
jointly optimize multiple rewards in RL for T2I generation is highly desirable.
This paper introduces Parrot, a novel multi-reward RL framework for T2I
generation. Through the use of the batch-wise Pareto optimal selection, Parrot
automatically identifies the optimal trade-off among different rewards during
the RL optimization of the T2I generation. Additionally, Parrot employs a joint
optimization approach for the T2I model and the prompt expansion network,
facilitating the generation of quality-aware text prompts, thus further
enhancing the final image quality. To counteract the potential catastrophic
forgetting of the original user prompt due to prompt expansion, we introduce
original prompt centered guidance at inference time, ensuring that the
generated image remains faithful to the user input. Extensive experiments and a
user study demonstrate that Parrot outperforms several baseline methods across
various quality criteria, including aesthetics, human preference, image
sentiment, and text-image alignment.