Представьте себя: Генерация персонализированных изображений без настройки.Imagine yourself: Tuning-Free Personalized Image Generation
Модели диффузии продемонстрировали выдающуюся эффективность в различных задачах изображения к изображению. В данном исследовании мы представляем Imagine yourself, передовую модель, разработанную для персонализированной генерации изображений. В отличие от обычных техник персонализации на основе настройки, Imagine yourself работает как модель без настройки, позволяя всем пользователям использовать общую структуру без индивидуальных настроек. Более того, предыдущие работы столкнулись с проблемами балансировки сохранения идентичности, выполнения сложных запросов и сохранения высокого качества изображения, что привело к моделям с сильным эффектом копирования и вставки изображений-эталонов. Таким образом, они едва могут генерировать изображения в соответствии с запросами, требующими значительных изменений исходного изображения, например, изменения выражения лица, позы головы и тела, и разнообразие сгенерированных изображений невелико. Для преодоления этих ограничений наш метод предлагает 1) новый механизм генерации синтетических парных данных для поощрения разнообразия изображений, 2) полностью параллельную архитектуру внимания с тремя текстовыми кодировщиками и полностью обучаемым видовым кодировщиком для улучшения точности текста, и 3) новую методологию многоэтапной донастройки от грубой к тонкой, которая постепенно повышает уровень качества изображения. Наше исследование демонстрирует, что Imagine yourself превосходит передовую модель персонализации, обладая превосходными возможностями в сохранении идентичности, качестве изображения и соответствии текста. Эта модель заложила прочный фундамент для различных приложений персонализации. Результаты человеческой оценки подтверждают превосходство модели SOTA во всех аспектах (сохранение идентичности, точность текста и визуальное воздействие) по сравнению с предыдущими моделями персонализации.