ChatPaper.aiChatPaper

ID-Aligner: Verbetering van identiteitsbehoudende tekst-naar-beeldgeneratie met beloningsfeedbackleren

ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning

April 23, 2024
Auteurs: Weifeng Chen, Jiacheng Zhang, Jie Wu, Hefeng Wu, Xuefeng Xiao, Liang Lin
cs.AI

Samenvatting

De snelle ontwikkeling van diffusiemodellen heeft geleid tot diverse toepassingen. Identiteitsbehoudende tekst-naar-beeldgeneratie (ID-T2I) heeft in het bijzonder veel aandacht gekregen vanwege het brede scala aan toepassingsscenario's, zoals AI-portretten en reclame. Hoewel bestaande ID-T2I-methoden indrukwekkende resultaten hebben laten zien, blijven er enkele belangrijke uitdagingen bestaan: (1) Het is moeilijk om de identiteitskenmerken van referentieportretten nauwkeurig te behouden, (2) De gegenereerde beelden missen esthetische aantrekkingskracht, vooral bij het afdwingen van identiteitsbehoud, en (3) Er is een beperking waardoor het niet mogelijk is om compatibel te zijn met zowel LoRA- als Adapter-gebaseerde methoden. Om deze problemen aan te pakken, presenteren we ID-Aligner, een algemeen feedbackleerframework om de prestaties van ID-T2I te verbeteren. Om het verlies van identiteitskenmerken op te lossen, introduceren we fine-tuning met identiteitsconsistentiebeloning om de feedback van gezichtsdetectie- en herkenningsmodellen te gebruiken om het behoud van de gegenereerde identiteit te verbeteren. Bovendien stellen we fine-tuning met esthetische identiteitsbeloning voor, waarbij gebruik wordt gemaakt van beloningen uit door mensen geannoteerde voorkeursdata en automatisch gegenereerde feedback over de generatie van karakterstructuren om esthetische afstemmingssignalen te bieden. Dankzij het universele feedback-fine-tuningframework kan onze methode eenvoudig worden toegepast op zowel LoRA- als Adapter-modellen, wat resulteert in consistente prestatieverbeteringen. Uitgebreide experimenten op SD1.5- en SDXL-diffusiemodellen valideren de effectiviteit van onze aanpak. Projectpagina: \url{https://idaligner.github.io/}
English
The rapid development of diffusion models has triggered diverse applications. Identity-preserving text-to-image generation (ID-T2I) particularly has received significant attention due to its wide range of application scenarios like AI portrait and advertising. While existing ID-T2I methods have demonstrated impressive results, several key challenges remain: (1) It is hard to maintain the identity characteristics of reference portraits accurately, (2) The generated images lack aesthetic appeal especially while enforcing identity retention, and (3) There is a limitation that cannot be compatible with LoRA-based and Adapter-based methods simultaneously. To address these issues, we present ID-Aligner, a general feedback learning framework to enhance ID-T2I performance. To resolve identity features lost, we introduce identity consistency reward fine-tuning to utilize the feedback from face detection and recognition models to improve generated identity preservation. Furthermore, we propose identity aesthetic reward fine-tuning leveraging rewards from human-annotated preference data and automatically constructed feedback on character structure generation to provide aesthetic tuning signals. Thanks to its universal feedback fine-tuning framework, our method can be readily applied to both LoRA and Adapter models, achieving consistent performance gains. Extensive experiments on SD1.5 and SDXL diffusion models validate the effectiveness of our approach. Project Page: \url{https://idaligner.github.io/}
PDF141December 15, 2024