ID-Aligner: Verbesserung der Identitätserhaltenden Text-zu-Bild-Generierung mit Belohnungsrückkopplungs-Lernen
ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning
April 23, 2024
papers.authors: Weifeng Chen, Jiacheng Zhang, Jie Wu, Hefeng Wu, Xuefeng Xiao, Liang Lin
cs.AI
papers.abstract
Die rasante Entwicklung von Diffusionsmodellen hat vielfältige Anwendungen ausgelöst. Die text-zu-Bild-Generierung unter Beibehaltung der Identität (ID-T2I) hat insbesondere aufgrund ihrer breiten Anwendungsszenarien wie KI-Porträts und Werbung erhebliche Aufmerksamkeit erhalten. Obwohl bestehende ID-T2I-Methoden beeindruckende Ergebnisse gezeigt haben, bleiben mehrere Schlüsselherausforderungen bestehen: (1) Es ist schwierig, die Identitätsmerkmale von Referenzporträts genau beizubehalten, (2) Die generierten Bilder weisen einen Mangel an ästhetischer Anziehungskraft auf, insbesondere bei der Durchsetzung der Identitätsbewahrung, und (3) Es gibt eine Einschränkung, die nicht gleichzeitig mit LoRA-basierten und Adapter-basierten Methoden kompatibel ist. Um diese Probleme anzugehen, präsentieren wir ID-Aligner, ein allgemeines Rückkopplungs-Lernrahmenwerk zur Verbesserung der Leistung von ID-T2I. Um verlorene Identitätsmerkmale zu lösen, führen wir eine Feinabstimmung der Identitätskonsistenzbelohnung ein, um das Feedback von Gesichtserkennungs- und -erkennungsmodellen zu nutzen, um die generierte Identitätserhaltung zu verbessern. Darüber hinaus schlagen wir eine Feinabstimmung der Identitätsästhetikbelohnung vor, die Belohnungen aus menschlich annotierten Präferenzdaten und automatisch erstelltem Feedback zur Charakterstrukturerzeugung nutzt, um ästhetische Abstimmungssignale bereitzustellen. Dank seines universellen Rückkopplungsfeinabstimmungsrahmens kann unsere Methode problemlos auf sowohl LoRA- als auch Adapter-Modelle angewendet werden und dabei konsistente Leistungssteigerungen erzielen. Umfangreiche Experimente mit SD1.5- und SDXL-Diffusionsmodellen bestätigen die Wirksamkeit unseres Ansatzes. Projektpage: \url{https://idaligner.github.io/}
English
The rapid development of diffusion models has triggered diverse applications.
Identity-preserving text-to-image generation (ID-T2I) particularly has received
significant attention due to its wide range of application scenarios like AI
portrait and advertising. While existing ID-T2I methods have demonstrated
impressive results, several key challenges remain: (1) It is hard to maintain
the identity characteristics of reference portraits accurately, (2) The
generated images lack aesthetic appeal especially while enforcing identity
retention, and (3) There is a limitation that cannot be compatible with
LoRA-based and Adapter-based methods simultaneously. To address these issues,
we present ID-Aligner, a general feedback learning framework to
enhance ID-T2I performance. To resolve identity features lost, we introduce
identity consistency reward fine-tuning to utilize the feedback from face
detection and recognition models to improve generated identity preservation.
Furthermore, we propose identity aesthetic reward fine-tuning leveraging
rewards from human-annotated preference data and automatically constructed
feedback on character structure generation to provide aesthetic tuning signals.
Thanks to its universal feedback fine-tuning framework, our method can be
readily applied to both LoRA and Adapter models, achieving consistent
performance gains. Extensive experiments on SD1.5 and SDXL diffusion models
validate the effectiveness of our approach. Project Page:
\url{https://idaligner.github.io/}