Представьте себя: Генерация персонализированных изображений без настройки.
Imagine yourself: Tuning-Free Personalized Image Generation
September 20, 2024
Авторы: Zecheng He, Bo Sun, Felix Juefei-Xu, Haoyu Ma, Ankit Ramchandani, Vincent Cheung, Siddharth Shah, Anmol Kalia, Harihar Subramanyam, Alireza Zareian, Li Chen, Ankit Jain, Ning Zhang, Peizhao Zhang, Roshan Sumbaly, Peter Vajda, Animesh Sinha
cs.AI
Аннотация
Модели диффузии продемонстрировали выдающуюся эффективность в различных задачах изображения к изображению. В данном исследовании мы представляем Imagine yourself, передовую модель, разработанную для персонализированной генерации изображений. В отличие от обычных техник персонализации на основе настройки, Imagine yourself работает как модель без настройки, позволяя всем пользователям использовать общую структуру без индивидуальных настроек. Более того, предыдущие работы столкнулись с проблемами балансировки сохранения идентичности, выполнения сложных запросов и сохранения высокого качества изображения, что привело к моделям с сильным эффектом копирования и вставки изображений-эталонов. Таким образом, они едва могут генерировать изображения в соответствии с запросами, требующими значительных изменений исходного изображения, например, изменения выражения лица, позы головы и тела, и разнообразие сгенерированных изображений невелико. Для преодоления этих ограничений наш метод предлагает 1) новый механизм генерации синтетических парных данных для поощрения разнообразия изображений, 2) полностью параллельную архитектуру внимания с тремя текстовыми кодировщиками и полностью обучаемым видовым кодировщиком для улучшения точности текста, и 3) новую методологию многоэтапной донастройки от грубой к тонкой, которая постепенно повышает уровень качества изображения. Наше исследование демонстрирует, что Imagine yourself превосходит передовую модель персонализации, обладая превосходными возможностями в сохранении идентичности, качестве изображения и соответствии текста. Эта модель заложила прочный фундамент для различных приложений персонализации. Результаты человеческой оценки подтверждают превосходство модели SOTA во всех аспектах (сохранение идентичности, точность текста и визуальное воздействие) по сравнению с предыдущими моделями персонализации.
English
Diffusion models have demonstrated remarkable efficacy across various
image-to-image tasks. In this research, we introduce Imagine yourself, a
state-of-the-art model designed for personalized image generation. Unlike
conventional tuning-based personalization techniques, Imagine yourself operates
as a tuning-free model, enabling all users to leverage a shared framework
without individualized adjustments. Moreover, previous work met challenges
balancing identity preservation, following complex prompts and preserving good
visual quality, resulting in models having strong copy-paste effect of the
reference images. Thus, they can hardly generate images following prompts that
require significant changes to the reference image, \eg, changing facial
expression, head and body poses, and the diversity of the generated images is
low. To address these limitations, our proposed method introduces 1) a new
synthetic paired data generation mechanism to encourage image diversity, 2) a
fully parallel attention architecture with three text encoders and a fully
trainable vision encoder to improve the text faithfulness, and 3) a novel
coarse-to-fine multi-stage finetuning methodology that gradually pushes the
boundary of visual quality. Our study demonstrates that Imagine yourself
surpasses the state-of-the-art personalization model, exhibiting superior
capabilities in identity preservation, visual quality, and text alignment. This
model establishes a robust foundation for various personalization applications.
Human evaluation results validate the model's SOTA superiority across all
aspects (identity preservation, text faithfulness, and visual appeal) compared
to the previous personalization models.Summary
AI-Generated Summary