ID-Aligner: Miglioramento della Generazione di Immagini da Testo con Conservazione dell'Identità attraverso Apprendimento con Feedback di Ricompensa

Abstract

Il rapido sviluppo dei modelli di diffusione ha dato origine a una vasta gamma di applicazioni. In particolare, la generazione di immagini da testo con conservazione dell'identità (ID-T2I) ha ricevuto notevole attenzione grazie ai suoi numerosi scenari applicativi, come i ritratti AI e la pubblicità. Sebbene i metodi ID-T2I esistenti abbiano dimostrato risultati impressionanti, permangono diverse sfide chiave: (1) È difficile mantenere con precisione le caratteristiche identitarie dei ritratti di riferimento, (2) Le immagini generate mancano di appeal estetico, specialmente quando si cerca di preservare l'identità, e (3) Esiste una limitazione che non consente la compatibilità simultanea con metodi basati su LoRA e Adapter. Per affrontare questi problemi, presentiamo ID-Aligner, un framework di apprendimento basato su feedback generale per migliorare le prestazioni ID-T2I. Per risolvere la perdita delle caratteristiche identitarie, introduciamo un fine-tuning basato su ricompensa di consistenza dell'identità, sfruttando il feedback proveniente da modelli di rilevamento e riconoscimento facciale per migliorare la conservazione dell'identità generata. Inoltre, proponiamo un fine-tuning basato su ricompensa estetica dell'identità, utilizzando ricompense derivate da dati di preferenza annotati manualmente e feedback automaticamente costruiti sulla generazione della struttura del personaggio, per fornire segnali di regolazione estetica. Grazie al suo framework universale di fine-tuning basato su feedback, il nostro metodo può essere facilmente applicato sia ai modelli LoRA che Adapter, ottenendo miglioramenti prestazionali consistenti. Esperimenti estensivi sui modelli di diffusione SD1.5 e SDXL convalidano l'efficacia del nostro approccio. Pagina del progetto: \url{https://idaligner.github.io/}

English

The rapid development of diffusion models has triggered diverse applications. Identity-preserving text-to-image generation (ID-T2I) particularly has received significant attention due to its wide range of application scenarios like AI portrait and advertising. While existing ID-T2I methods have demonstrated impressive results, several key challenges remain: (1) It is hard to maintain the identity characteristics of reference portraits accurately, (2) The generated images lack aesthetic appeal especially while enforcing identity retention, and (3) There is a limitation that cannot be compatible with LoRA-based and Adapter-based methods simultaneously. To address these issues, we present ID-Aligner, a general feedback learning framework to enhance ID-T2I performance. To resolve identity features lost, we introduce identity consistency reward fine-tuning to utilize the feedback from face detection and recognition models to improve generated identity preservation. Furthermore, we propose identity aesthetic reward fine-tuning leveraging rewards from human-annotated preference data and automatically constructed feedback on character structure generation to provide aesthetic tuning signals. Thanks to its universal feedback fine-tuning framework, our method can be readily applied to both LoRA and Adapter models, achieving consistent performance gains. Extensive experiments on SD1.5 and SDXL diffusion models validate the effectiveness of our approach. Project Page: \url{https://idaligner.github.io/}

ID-Aligner: Miglioramento della Generazione di Immagini da Testo con Conservazione dell'Identità attraverso Apprendimento con Feedback di Ricompensa

ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning

Abstract

Support