ID-Aligner : Amélioration de la génération d'images à partir de texte préservant l'identité grâce à l'apprentissage par rétroaction de récompense
ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning
April 23, 2024
Auteurs: Weifeng Chen, Jiacheng Zhang, Jie Wu, Hefeng Wu, Xuefeng Xiao, Liang Lin
cs.AI
Résumé
Le développement rapide des modèles de diffusion a suscité une diversité d'applications. La génération d'images à partir de texte préservant l'identité (ID-T2I) a particulièrement retenu l'attention en raison de ses nombreux scénarios d'application, tels que les portraits IA et la publicité. Bien que les méthodes existantes d'ID-T2I aient démontré des résultats impressionnants, plusieurs défis majeurs persistent : (1) Il est difficile de maintenir avec précision les caractéristiques identitaires des portraits de référence, (2) Les images générées manquent d'attrait esthétique, en particulier lors de la conservation de l'identité, et (3) Il existe une limitation qui empêche la compatibilité simultanée avec les méthodes basées sur LoRA et Adapter. Pour résoudre ces problèmes, nous présentons ID-Aligner, un cadre d'apprentissage par feedback général visant à améliorer les performances de l'ID-T2I. Pour pallier la perte des caractéristiques identitaires, nous introduisons un réglage fin basé sur une récompense de cohérence identitaire, exploitant le feedback des modèles de détection et de reconnaissance faciale pour améliorer la préservation de l'identité générée. De plus, nous proposons un réglage fin basé sur une récompense esthétique identitaire, tirant parti des données de préférence annotées par des humains et des feedbacks automatiquement construits sur la génération de la structure des personnages pour fournir des signaux de réglage esthétique. Grâce à son cadre universel de réglage fin par feedback, notre méthode peut être facilement appliquée à la fois aux modèles LoRA et Adapter, obtenant des gains de performance constants. Des expériences approfondies sur les modèles de diffusion SD1.5 et SDXL valident l'efficacité de notre approche. Page du projet : \url{https://idaligner.github.io/}
English
The rapid development of diffusion models has triggered diverse applications.
Identity-preserving text-to-image generation (ID-T2I) particularly has received
significant attention due to its wide range of application scenarios like AI
portrait and advertising. While existing ID-T2I methods have demonstrated
impressive results, several key challenges remain: (1) It is hard to maintain
the identity characteristics of reference portraits accurately, (2) The
generated images lack aesthetic appeal especially while enforcing identity
retention, and (3) There is a limitation that cannot be compatible with
LoRA-based and Adapter-based methods simultaneously. To address these issues,
we present ID-Aligner, a general feedback learning framework to
enhance ID-T2I performance. To resolve identity features lost, we introduce
identity consistency reward fine-tuning to utilize the feedback from face
detection and recognition models to improve generated identity preservation.
Furthermore, we propose identity aesthetic reward fine-tuning leveraging
rewards from human-annotated preference data and automatically constructed
feedback on character structure generation to provide aesthetic tuning signals.
Thanks to its universal feedback fine-tuning framework, our method can be
readily applied to both LoRA and Adapter models, achieving consistent
performance gains. Extensive experiments on SD1.5 and SDXL diffusion models
validate the effectiveness of our approach. Project Page:
\url{https://idaligner.github.io/}Summary
AI-Generated Summary