ID-Aligner: 보상 피드백 학습을 통한 정체성 보존 텍스트-이미지 생성 강화
ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning
April 23, 2024
저자: Weifeng Chen, Jiacheng Zhang, Jie Wu, Hefeng Wu, Xuefeng Xiao, Liang Lin
cs.AI
초록
확산 모델의 급속한 발전은 다양한 응용 분야를 촉발시켰다. 특히, ID 보존 텍스트-이미지 생성(ID-T2I)은 AI 초상화 및 광고와 같은 광범위한 응용 시나리오로 인해 상당한 주목을 받고 있다. 기존의 ID-T2I 방법들이 인상적인 결과를 보여주었지만, 몇 가지 주요 과제가 여전히 남아 있다: (1) 참조 초상화의 ID 특성을 정확하게 유지하기 어렵고, (2) 생성된 이미지가 특히 ID 보존을 강제할 때 미적 매력이 부족하며, (3) LoRA 기반 및 Adapter 기반 방법을 동시에 호환할 수 없는 한계가 있다. 이러한 문제를 해결하기 위해, 우리는 ID-T2I 성능을 향상시키기 위한 일반적인 피드백 학습 프레임워크인 ID-Aligner를 제안한다. ID 특성 손실 문제를 해결하기 위해, 우리는 얼굴 탐지 및 인식 모델의 피드백을 활용하여 생성된 ID 보존을 개선하는 ID 일관성 보상 미세 조정을 도입한다. 더 나아가, 인간이 주석을 단 선호도 데이터와 자동으로 구성된 캐릭터 구조 생성에 대한 피드백을 활용하여 미적 조정 신호를 제공하는 ID 미적 보상 미세 조정을 제안한다. 보편적인 피드백 미세 조정 프레임워크 덕분에, 우리의 방법은 LoRA 및 Adapter 모델 모두에 쉽게 적용될 수 있으며, 일관된 성능 향상을 달성한다. SD1.5 및 SDXL 확산 모델에 대한 광범위한 실험을 통해 우리 접근법의 효과성을 검증하였다. 프로젝트 페이지: \url{https://idaligner.github.io/}
English
The rapid development of diffusion models has triggered diverse applications.
Identity-preserving text-to-image generation (ID-T2I) particularly has received
significant attention due to its wide range of application scenarios like AI
portrait and advertising. While existing ID-T2I methods have demonstrated
impressive results, several key challenges remain: (1) It is hard to maintain
the identity characteristics of reference portraits accurately, (2) The
generated images lack aesthetic appeal especially while enforcing identity
retention, and (3) There is a limitation that cannot be compatible with
LoRA-based and Adapter-based methods simultaneously. To address these issues,
we present ID-Aligner, a general feedback learning framework to
enhance ID-T2I performance. To resolve identity features lost, we introduce
identity consistency reward fine-tuning to utilize the feedback from face
detection and recognition models to improve generated identity preservation.
Furthermore, we propose identity aesthetic reward fine-tuning leveraging
rewards from human-annotated preference data and automatically constructed
feedback on character structure generation to provide aesthetic tuning signals.
Thanks to its universal feedback fine-tuning framework, our method can be
readily applied to both LoRA and Adapter models, achieving consistent
performance gains. Extensive experiments on SD1.5 and SDXL diffusion models
validate the effectiveness of our approach. Project Page:
\url{https://idaligner.github.io/}Summary
AI-Generated Summary