ID-Aligner: Mejorando la Generación de Imágenes a partir de Texto con Preservación de Identidad mediante Aprendizaje por Retroalimentación de Recompensas
ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning
April 23, 2024
Autores: Weifeng Chen, Jiacheng Zhang, Jie Wu, Hefeng Wu, Xuefeng Xiao, Liang Lin
cs.AI
Resumen
El rápido desarrollo de los modelos de difusión ha impulsado diversas aplicaciones. En particular, la generación de imágenes a partir de texto que preserva la identidad (ID-T2I) ha recibido una atención significativa debido a su amplia gama de escenarios de aplicación, como retratos con IA y publicidad. Aunque los métodos existentes de ID-T2I han demostrado resultados impresionantes, persisten varios desafíos clave: (1) Es difícil mantener con precisión las características de identidad de los retratos de referencia, (2) Las imágenes generadas carecen de atractivo estético, especialmente al forzar la retención de la identidad, y (3) Existe una limitación que no permite ser compatible simultáneamente con métodos basados en LoRA y Adapter. Para abordar estos problemas, presentamos ID-Aligner, un marco de aprendizaje por retroalimentación general para mejorar el rendimiento de ID-T2I. Para resolver la pérdida de características de identidad, introducimos un ajuste fino basado en recompensas de consistencia de identidad, utilizando la retroalimentación de modelos de detección y reconocimiento facial para mejorar la preservación de la identidad generada. Además, proponemos un ajuste fino basado en recompensas estéticas de identidad, aprovechando recompensas de datos de preferencia anotados por humanos y retroalimentación automática sobre la generación de estructuras de personajes para proporcionar señales de ajuste estético. Gracias a su marco universal de ajuste fino por retroalimentación, nuestro método puede aplicarse fácilmente tanto a modelos LoRA como Adapter, logrando mejoras de rendimiento consistentes. Experimentos exhaustivos en los modelos de difusión SD1.5 y SDXL validan la efectividad de nuestro enfoque. Página del proyecto: \url{https://idaligner.github.io/}
English
The rapid development of diffusion models has triggered diverse applications.
Identity-preserving text-to-image generation (ID-T2I) particularly has received
significant attention due to its wide range of application scenarios like AI
portrait and advertising. While existing ID-T2I methods have demonstrated
impressive results, several key challenges remain: (1) It is hard to maintain
the identity characteristics of reference portraits accurately, (2) The
generated images lack aesthetic appeal especially while enforcing identity
retention, and (3) There is a limitation that cannot be compatible with
LoRA-based and Adapter-based methods simultaneously. To address these issues,
we present ID-Aligner, a general feedback learning framework to
enhance ID-T2I performance. To resolve identity features lost, we introduce
identity consistency reward fine-tuning to utilize the feedback from face
detection and recognition models to improve generated identity preservation.
Furthermore, we propose identity aesthetic reward fine-tuning leveraging
rewards from human-annotated preference data and automatically constructed
feedback on character structure generation to provide aesthetic tuning signals.
Thanks to its universal feedback fine-tuning framework, our method can be
readily applied to both LoRA and Adapter models, achieving consistent
performance gains. Extensive experiments on SD1.5 and SDXL diffusion models
validate the effectiveness of our approach. Project Page:
\url{https://idaligner.github.io/}Summary
AI-Generated Summary