ConsistentID: Генерация портретов с сохранением мультимодальной детализированной идентичности
ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving
April 25, 2024
Авторы: Jiehui Huang, Xiao Dong, Wenhui Song, Hanhui Li, Jun Zhou, Yuhao Cheng, Shutao Liao, Long Chen, Yiqiang Yan, Shengcai Liao, Xiaodan Liang
cs.AI
Аннотация
Технологии на основе диффузии сделали значительные шаги, особенно в персонализированной и настраиваемой генерации лиц. Однако существующие методы сталкиваются с проблемами в достижении высокой степени реалистичности и детальной согласованности идентичности (ID), в основном из-за недостаточного тонкого контроля над областями лица и отсутствия всеохватывающей стратегии сохранения ID, полностью учитывающей сложные детали лица и общее лицо. Для решения этих ограничений мы представляем ConsistentID, инновационный метод, разработанный для генерации портретов с сохранением разнообразной идентичности при помощи тонких мультимодальных подсказок для лица, используя только одно исходное изображение. ConsistentID состоит из двух ключевых компонентов: генератора мультимодальных подсказок для лица, который объединяет черты лица, соответствующие описания лица и общий контекст лица для улучшения точности деталей лица, и сети сохранения ID, оптимизированной с помощью стратегии локализации внимания к лицу, направленной на сохранение согласованности ID в областях лица. Вместе эти компоненты значительно улучшают точность сохранения ID, вводя тонкую мультимодальную информацию ID из областей лица. Для облегчения обучения ConsistentID мы представляем набор данных с тонкими деталями портретов, FGID, с более чем 500 000 изображений лиц, предлагающий большее разнообразие и полноту, чем существующие общедоступные наборы данных о лицах, такие как LAION-Face, CelebA, FFHQ и SFHQ. Экспериментальные результаты подтверждают, что наш ConsistentID достигает исключительной точности и разнообразия в персонализированной генерации лиц, превосходя существующие методы на наборе данных MyStyle. Более того, хотя ConsistentID вводит больше мультимодальной информации ID, он сохраняет быструю скорость вывода во время генерации.
English
Diffusion-based technologies have made significant strides, particularly in
personalized and customized facialgeneration. However, existing methods face
challenges in achieving high-fidelity and detailed identity (ID)consistency,
primarily due to insufficient fine-grained control over facial areas and the
lack of a comprehensive strategy for ID preservation by fully considering
intricate facial details and the overall face. To address these limitations, we
introduce ConsistentID, an innovative method crafted for
diverseidentity-preserving portrait generation under fine-grained multimodal
facial prompts, utilizing only a single reference image. ConsistentID comprises
two key components: a multimodal facial prompt generator that combines facial
features, corresponding facial descriptions and the overall facial context to
enhance precision in facial details, and an ID-preservation network optimized
through the facial attention localization strategy, aimed at preserving ID
consistency in facial regions. Together, these components significantly enhance
the accuracy of ID preservation by introducing fine-grained multimodal ID
information from facial regions. To facilitate training of ConsistentID, we
present a fine-grained portrait dataset, FGID, with over 500,000 facial images,
offering greater diversity and comprehensiveness than existing public facial
datasets. % such as LAION-Face, CelebA, FFHQ, and SFHQ. Experimental results
substantiate that our ConsistentID achieves exceptional precision and diversity
in personalized facial generation, surpassing existing methods in the MyStyle
dataset. Furthermore, while ConsistentID introduces more multimodal ID
information, it maintains a fast inference speed during generation.Summary
AI-Generated Summary