ID-Aligner: Улучшение генерации текста в изображение с сохранением идентичности с помощью обучения с обратной связью поощрения
ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning
April 23, 2024
Авторы: Weifeng Chen, Jiacheng Zhang, Jie Wu, Hefeng Wu, Xuefeng Xiao, Liang Lin
cs.AI
Аннотация
Бурное развитие моделей диффузии вызвало разнообразные приложения. Особое внимание привлекла генерация текста в изображение с сохранением идентичности (ID-T2I) из-за широкого спектра сценариев применения, таких как портреты и реклама в области искусственного интеллекта. Несмотря на впечатляющие результаты существующих методов ID-T2I, остаются несколько ключевых проблем: (1) сложно точно сохранить характеристики идентичности исходных портретов, (2) сгенерированные изображения лишены эстетического обаяния, особенно при сохранении идентичности, и (3) существует ограничение, которое не позволяет одновременно совместимо использовать методы на основе LoRA и Adapter. Для решения этих проблем мы представляем ID-Aligner, общую рамку обучения обратной связи для улучшения производительности ID-T2I. Для восстановления утраченных признаков идентичности мы внедряем обучение с наградой за согласованность идентичности для использования обратной связи от моделей обнаружения и распознавания лиц для улучшения сохранения идентичности в сгенерированных изображениях. Кроме того, мы предлагаем обучение с наградой за эстетику идентичности, используя награды от предпочтений, аннотированных людьми, и автоматически созданную обратную связь по генерации структуры персонажа для предоставления сигналов эстетической настройки. Благодаря универсальной рамке обучения обратной связи наш метод может быть легко применен как к моделям LoRA, так и к Adapter, достигая последовательного улучшения производительности. Обширные эксперименты на моделях диффузии SD1.5 и SDXL подтверждают эффективность нашего подхода. Страница проекта: \url{https://idaligner.github.io/}
English
The rapid development of diffusion models has triggered diverse applications.
Identity-preserving text-to-image generation (ID-T2I) particularly has received
significant attention due to its wide range of application scenarios like AI
portrait and advertising. While existing ID-T2I methods have demonstrated
impressive results, several key challenges remain: (1) It is hard to maintain
the identity characteristics of reference portraits accurately, (2) The
generated images lack aesthetic appeal especially while enforcing identity
retention, and (3) There is a limitation that cannot be compatible with
LoRA-based and Adapter-based methods simultaneously. To address these issues,
we present ID-Aligner, a general feedback learning framework to
enhance ID-T2I performance. To resolve identity features lost, we introduce
identity consistency reward fine-tuning to utilize the feedback from face
detection and recognition models to improve generated identity preservation.
Furthermore, we propose identity aesthetic reward fine-tuning leveraging
rewards from human-annotated preference data and automatically constructed
feedback on character structure generation to provide aesthetic tuning signals.
Thanks to its universal feedback fine-tuning framework, our method can be
readily applied to both LoRA and Adapter models, achieving consistent
performance gains. Extensive experiments on SD1.5 and SDXL diffusion models
validate the effectiveness of our approach. Project Page:
\url{https://idaligner.github.io/}