Parrot: Pareto-optimale Multi-Belohnungs-Reinforcement-Learning-Architektur für die Text-zu-Bild-Generierung
Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to-Image Generation
January 11, 2024
Autoren: Seung Hyun Lee, Yinxiao Li, Junjie Ke, Innfarn Yoo, Han Zhang, Jiahui Yu, Qifei Wang, Fei Deng, Glenn Entis, Junfeng He, Gang Li, Sangpil Kim, Irfan Essa, Feng Yang
cs.AI
Zusammenfassung
Aktuelle Arbeiten zeigen, dass der Einsatz von Reinforcement Learning (RL) mit Qualitätsbelohnungen die Qualität der generierten Bilder in der Text-zu-Bild (T2I)-Generierung verbessern kann. Eine einfache Aggregation mehrerer Belohnungen kann jedoch zu einer Überoptimierung bestimmter Metriken und einer Verschlechterung anderer führen, und es ist schwierig, die optimalen Gewichtungen manuell zu finden. Eine effektive Strategie zur gemeinsamen Optimierung mehrerer Belohnungen in RL für die T2I-Generierung ist daher äußerst wünschenswert. Dieses Papier stellt Parrot vor, ein neuartiges Multi-Belohnungs-RL-Framework für die T2I-Generierung. Durch die Verwendung der batchweisen Pareto-optimalen Selektion identifiziert Parrot automatisch den optimalen Kompromiss zwischen verschiedenen Belohnungen während der RL-Optimierung der T2I-Generierung. Darüber hinaus setzt Parrot einen gemeinsamen Optimierungsansatz für das T2I-Modell und das Prompt-Expansionsnetzwerk ein, wodurch die Generierung qualitätsbewusster Text-Prompts erleichtert wird und somit die endgültige Bildqualität weiter verbessert wird. Um dem potenziellen katastrophalen Vergessen des ursprünglichen Benutzer-Prompts aufgrund der Prompt-Expansion entgegenzuwirken, führen wir zur Inferenzzeit eine auf den ursprünglichen Prompt zentrierte Führung ein, die sicherstellt, dass das generierte Bild dem Benutzereingang treu bleibt. Umfangreiche Experimente und eine Benutzerstudie zeigen, dass Parrot mehrere Baseline-Methoden in verschiedenen Qualitätskriterien übertrifft, darunter Ästhetik, menschliche Präferenz, Bildstimmung und Text-Bild-Ausrichtung.
English
Recent works demonstrate that using reinforcement learning (RL) with quality
rewards can enhance the quality of generated images in text-to-image (T2I)
generation. However, a simple aggregation of multiple rewards may cause
over-optimization in certain metrics and degradation in others, and it is
challenging to manually find the optimal weights. An effective strategy to
jointly optimize multiple rewards in RL for T2I generation is highly desirable.
This paper introduces Parrot, a novel multi-reward RL framework for T2I
generation. Through the use of the batch-wise Pareto optimal selection, Parrot
automatically identifies the optimal trade-off among different rewards during
the RL optimization of the T2I generation. Additionally, Parrot employs a joint
optimization approach for the T2I model and the prompt expansion network,
facilitating the generation of quality-aware text prompts, thus further
enhancing the final image quality. To counteract the potential catastrophic
forgetting of the original user prompt due to prompt expansion, we introduce
original prompt centered guidance at inference time, ensuring that the
generated image remains faithful to the user input. Extensive experiments and a
user study demonstrate that Parrot outperforms several baseline methods across
various quality criteria, including aesthetics, human preference, image
sentiment, and text-image alignment.