Parrot: Pareto-optimaal Multi-Reward Reinforcement Learning Framework voor Tekst-naar-Beeld Generatie
Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to-Image Generation
January 11, 2024
Auteurs: Seung Hyun Lee, Yinxiao Li, Junjie Ke, Innfarn Yoo, Han Zhang, Jiahui Yu, Qifei Wang, Fei Deng, Glenn Entis, Junfeng He, Gang Li, Sangpil Kim, Irfan Essa, Feng Yang
cs.AI
Samenvatting
Recente onderzoeken tonen aan dat het gebruik van reinforcement learning (RL) met kwaliteitsbeloningen de kwaliteit van gegenereerde afbeeldingen in tekst-naar-afbeelding (T2I) generatie kan verbeteren. Echter, een eenvoudige aggregatie van meerdere beloningen kan leiden tot overoptimalisatie in bepaalde metrieken en verslechtering in andere, en het is uitdagend om handmatig de optimale gewichten te vinden. Een effectieve strategie om meerdere beloningen gezamenlijk te optimaliseren in RL voor T2I-generatie is zeer gewenst. Dit artikel introduceert Parrot, een nieuw multi-beloning RL-framework voor T2I-generatie. Door het gebruik van batchgewijze Pareto-optimale selectie identificeert Parrot automatisch de optimale afweging tussen verschillende beloningen tijdens de RL-optimalisatie van de T2I-generatie. Daarnaast past Parrot een gezamenlijke optimalisatiebenadering toe voor het T2I-model en het promptuitbreidingsnetwerk, wat de generatie van kwaliteitsbewuste tekstprompts faciliteert en zo de uiteindelijke beeldkwaliteit verder verbetert. Om het mogelijke catastrofale vergeten van de originele gebruikersprompt door promptuitbreiding tegen te gaan, introduceren we originele prompt-gerichte begeleiding tijdens de inferentie, waardoor de gegenereerde afbeelding trouw blijft aan de gebruikersinvoer. Uitgebreide experimenten en een gebruikersstudie tonen aan dat Parrot verschillende baseline-methoden overtreft op diverse kwaliteitscriteria, waaronder esthetiek, menselijke voorkeur, beeldemotie en tekst-afbeelding uitlijning.
English
Recent works demonstrate that using reinforcement learning (RL) with quality
rewards can enhance the quality of generated images in text-to-image (T2I)
generation. However, a simple aggregation of multiple rewards may cause
over-optimization in certain metrics and degradation in others, and it is
challenging to manually find the optimal weights. An effective strategy to
jointly optimize multiple rewards in RL for T2I generation is highly desirable.
This paper introduces Parrot, a novel multi-reward RL framework for T2I
generation. Through the use of the batch-wise Pareto optimal selection, Parrot
automatically identifies the optimal trade-off among different rewards during
the RL optimization of the T2I generation. Additionally, Parrot employs a joint
optimization approach for the T2I model and the prompt expansion network,
facilitating the generation of quality-aware text prompts, thus further
enhancing the final image quality. To counteract the potential catastrophic
forgetting of the original user prompt due to prompt expansion, we introduce
original prompt centered guidance at inference time, ensuring that the
generated image remains faithful to the user input. Extensive experiments and a
user study demonstrate that Parrot outperforms several baseline methods across
various quality criteria, including aesthetics, human preference, image
sentiment, and text-image alignment.