ChatPaper.aiChatPaper

Parrot: Pareto-optimale Multi-Belohnungs-Reinforcement-Learning-Architektur für die Text-zu-Bild-Generierung

Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to-Image Generation

January 11, 2024
Autoren: Seung Hyun Lee, Yinxiao Li, Junjie Ke, Innfarn Yoo, Han Zhang, Jiahui Yu, Qifei Wang, Fei Deng, Glenn Entis, Junfeng He, Gang Li, Sangpil Kim, Irfan Essa, Feng Yang
cs.AI

Zusammenfassung

Aktuelle Arbeiten zeigen, dass der Einsatz von Reinforcement Learning (RL) mit Qualitätsbelohnungen die Qualität der generierten Bilder in der Text-zu-Bild (T2I)-Generierung verbessern kann. Eine einfache Aggregation mehrerer Belohnungen kann jedoch zu einer Überoptimierung bestimmter Metriken und einer Verschlechterung anderer führen, und es ist schwierig, die optimalen Gewichtungen manuell zu finden. Eine effektive Strategie zur gemeinsamen Optimierung mehrerer Belohnungen in RL für die T2I-Generierung ist daher äußerst wünschenswert. Dieses Papier stellt Parrot vor, ein neuartiges Multi-Belohnungs-RL-Framework für die T2I-Generierung. Durch die Verwendung der batchweisen Pareto-optimalen Selektion identifiziert Parrot automatisch den optimalen Kompromiss zwischen verschiedenen Belohnungen während der RL-Optimierung der T2I-Generierung. Darüber hinaus setzt Parrot einen gemeinsamen Optimierungsansatz für das T2I-Modell und das Prompt-Expansionsnetzwerk ein, wodurch die Generierung qualitätsbewusster Text-Prompts erleichtert wird und somit die endgültige Bildqualität weiter verbessert wird. Um dem potenziellen katastrophalen Vergessen des ursprünglichen Benutzer-Prompts aufgrund der Prompt-Expansion entgegenzuwirken, führen wir zur Inferenzzeit eine auf den ursprünglichen Prompt zentrierte Führung ein, die sicherstellt, dass das generierte Bild dem Benutzereingang treu bleibt. Umfangreiche Experimente und eine Benutzerstudie zeigen, dass Parrot mehrere Baseline-Methoden in verschiedenen Qualitätskriterien übertrifft, darunter Ästhetik, menschliche Präferenz, Bildstimmung und Text-Bild-Ausrichtung.
English
Recent works demonstrate that using reinforcement learning (RL) with quality rewards can enhance the quality of generated images in text-to-image (T2I) generation. However, a simple aggregation of multiple rewards may cause over-optimization in certain metrics and degradation in others, and it is challenging to manually find the optimal weights. An effective strategy to jointly optimize multiple rewards in RL for T2I generation is highly desirable. This paper introduces Parrot, a novel multi-reward RL framework for T2I generation. Through the use of the batch-wise Pareto optimal selection, Parrot automatically identifies the optimal trade-off among different rewards during the RL optimization of the T2I generation. Additionally, Parrot employs a joint optimization approach for the T2I model and the prompt expansion network, facilitating the generation of quality-aware text prompts, thus further enhancing the final image quality. To counteract the potential catastrophic forgetting of the original user prompt due to prompt expansion, we introduce original prompt centered guidance at inference time, ensuring that the generated image remains faithful to the user input. Extensive experiments and a user study demonstrate that Parrot outperforms several baseline methods across various quality criteria, including aesthetics, human preference, image sentiment, and text-image alignment.
PDF261December 15, 2024