ChatPaper.aiChatPaper

Parrot: テキストから画像生成のためのパレート最適マルチリワード強化学習フレームワーク

Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to-Image Generation

January 11, 2024
著者: Seung Hyun Lee, Yinxiao Li, Junjie Ke, Innfarn Yoo, Han Zhang, Jiahui Yu, Qifei Wang, Fei Deng, Glenn Entis, Junfeng He, Gang Li, Sangpil Kim, Irfan Essa, Feng Yang
cs.AI

要旨

最近の研究では、品質報酬を用いた強化学習(RL)がテキストから画像(T2I)生成における生成画像の品質を向上させることが示されています。しかし、複数の報酬を単純に集約すると、特定の指標で過剰最適化が発生し、他の指標で劣化が生じる可能性があり、最適な重みを手動で見つけることは困難です。T2I生成における複数の報酬を共同で最適化する効果的な戦略が強く求められています。本論文では、T2I生成のための新しい多報酬RLフレームワークであるParrotを紹介します。Parrotは、バッチ単位のパレート最適選択を用いることで、T2I生成のRL最適化中に異なる報酬間の最適なトレードオフを自動的に特定します。さらに、ParrotはT2Iモデルとプロンプト拡張ネットワークの共同最適化アプローチを採用し、品質を意識したテキストプロンプトの生成を促進し、最終的な画像品質をさらに向上させます。プロンプト拡張による元のユーザープロンプトの破滅的な忘却を防ぐために、推論時に元のプロンプトを中心としたガイダンスを導入し、生成された画像がユーザー入力に忠実であることを保証します。広範な実験とユーザー調査により、Parrotが美的感覚、人間の好み、画像感情、テキストと画像の整合性など、さまざまな品質基準において複数のベースラインメソッドを上回ることが実証されています。
English
Recent works demonstrate that using reinforcement learning (RL) with quality rewards can enhance the quality of generated images in text-to-image (T2I) generation. However, a simple aggregation of multiple rewards may cause over-optimization in certain metrics and degradation in others, and it is challenging to manually find the optimal weights. An effective strategy to jointly optimize multiple rewards in RL for T2I generation is highly desirable. This paper introduces Parrot, a novel multi-reward RL framework for T2I generation. Through the use of the batch-wise Pareto optimal selection, Parrot automatically identifies the optimal trade-off among different rewards during the RL optimization of the T2I generation. Additionally, Parrot employs a joint optimization approach for the T2I model and the prompt expansion network, facilitating the generation of quality-aware text prompts, thus further enhancing the final image quality. To counteract the potential catastrophic forgetting of the original user prompt due to prompt expansion, we introduce original prompt centered guidance at inference time, ensuring that the generated image remains faithful to the user input. Extensive experiments and a user study demonstrate that Parrot outperforms several baseline methods across various quality criteria, including aesthetics, human preference, image sentiment, and text-image alignment.
PDF261December 15, 2024