ID-Aligner: Aprimorando a Geração de Imagens a partir de Texto com Preservação de Identidade por meio de Aprendizado por Feedback de Recompensa
ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning
April 23, 2024
Autores: Weifeng Chen, Jiacheng Zhang, Jie Wu, Hefeng Wu, Xuefeng Xiao, Liang Lin
cs.AI
Resumo
O rápido desenvolvimento dos modelos de difusão tem impulsionado diversas aplicações. A geração de imagens a partir de texto com preservação de identidade (ID-T2I) tem recebido atenção significativa devido à sua ampla gama de cenários de aplicação, como retratos gerados por IA e publicidade. Embora os métodos existentes de ID-T2I tenham demonstrado resultados impressionantes, vários desafios-chave permanecem: (1) É difícil manter com precisão as características de identidade dos retratos de referência, (2) As imagens geradas carecem de apelo estético, especialmente ao impor a retenção de identidade, e (3) Existe uma limitação que não permite compatibilidade simultânea com métodos baseados em LoRA e Adapter. Para abordar essas questões, apresentamos o ID-Aligner, uma estrutura de aprendizado por feedback geral para melhorar o desempenho do ID-T2I. Para resolver a perda de características de identidade, introduzimos o ajuste fino de recompensa de consistência de identidade, utilizando o feedback de modelos de detecção e reconhecimento facial para melhorar a preservação da identidade gerada. Além disso, propomos o ajuste fino de recompensa estética de identidade, aproveitando recompensas de dados de preferência anotados por humanos e feedback automaticamente construído sobre a geração de estrutura de personagens para fornecer sinais de ajuste estético. Graças à sua estrutura universal de ajuste fino por feedback, nosso método pode ser facilmente aplicado a modelos LoRA e Adapter, alcançando ganhos consistentes de desempenho. Experimentos extensivos nos modelos de difusão SD1.5 e SDXL validam a eficácia da nossa abordagem. Página do Projeto: \url{https://idaligner.github.io/}
English
The rapid development of diffusion models has triggered diverse applications.
Identity-preserving text-to-image generation (ID-T2I) particularly has received
significant attention due to its wide range of application scenarios like AI
portrait and advertising. While existing ID-T2I methods have demonstrated
impressive results, several key challenges remain: (1) It is hard to maintain
the identity characteristics of reference portraits accurately, (2) The
generated images lack aesthetic appeal especially while enforcing identity
retention, and (3) There is a limitation that cannot be compatible with
LoRA-based and Adapter-based methods simultaneously. To address these issues,
we present ID-Aligner, a general feedback learning framework to
enhance ID-T2I performance. To resolve identity features lost, we introduce
identity consistency reward fine-tuning to utilize the feedback from face
detection and recognition models to improve generated identity preservation.
Furthermore, we propose identity aesthetic reward fine-tuning leveraging
rewards from human-annotated preference data and automatically constructed
feedback on character structure generation to provide aesthetic tuning signals.
Thanks to its universal feedback fine-tuning framework, our method can be
readily applied to both LoRA and Adapter models, achieving consistent
performance gains. Extensive experiments on SD1.5 and SDXL diffusion models
validate the effectiveness of our approach. Project Page:
\url{https://idaligner.github.io/}