ChatPaper.aiChatPaper

ConsistentID: 다중모드 세부 정체성 보존을 통한 초상화 생성

ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving

April 25, 2024
저자: Jiehui Huang, Xiao Dong, Wenhui Song, Hanhui Li, Jun Zhou, Yuhao Cheng, Shutao Liao, Long Chen, Yiqiang Yan, Shengcai Liao, Xiaodan Liang
cs.AI

초록

확산 기반 기술은 특히 개인화 및 맞춤형 얼굴 생성 분야에서 상당한 진전을 이루었습니다. 그러나 기존 방법들은 얼굴 영역에 대한 미세한 제어가 부족하고, 복잡한 얼굴 세부 사항과 전체 얼굴을 완전히 고려한 ID 보존 전략이 부족하여, 고충실도와 세부적인 ID 일관성을 달성하는 데 어려움을 겪고 있습니다. 이러한 한계를 해결하기 위해, 우리는 단일 참조 이미지만을 사용하여 미세한 다중 모드 얼굴 프롬프트 하에서 다양한 ID 보존 초상화 생성을 위한 혁신적인 방법인 ConsistentID를 소개합니다. ConsistentID는 두 가지 주요 구성 요소로 이루어져 있습니다: 얼굴 특징, 해당 얼굴 설명 및 전체 얼굴 맥락을 결합하여 얼굴 세부 사항의 정확성을 향상시키는 다중 모드 얼굴 프롬프트 생성기와, 얼굴 영역에서 ID 일관성을 보존하기 위해 얼굴 주의 위치 지정 전략을 통해 최적화된 ID 보존 네트워크입니다. 이 두 구성 요소는 얼굴 영역에서 미세한 다중 모드 ID 정보를 도입함으로써 ID 보존의 정확성을 크게 향상시킵니다. ConsistentID의 학습을 용이하게 하기 위해, 우리는 500,000개 이상의 얼굴 이미지를 포함한 미세한 초상화 데이터셋인 FGID를 제시합니다. 이 데이터셋은 기존의 공개 얼굴 데이터셋보다 더 다양하고 포괄적입니다. 실험 결과는 우리의 ConsistentID가 MyStyle 데이터셋에서 기존 방법들을 능가하는 개인화된 얼굴 생성에서 탁월한 정확성과 다양성을 달성함을 입증합니다. 또한, ConsistentID는 더 많은 다중 모드 ID 정보를 도입하면서도 생성 과정에서 빠른 추론 속도를 유지합니다.
English
Diffusion-based technologies have made significant strides, particularly in personalized and customized facialgeneration. However, existing methods face challenges in achieving high-fidelity and detailed identity (ID)consistency, primarily due to insufficient fine-grained control over facial areas and the lack of a comprehensive strategy for ID preservation by fully considering intricate facial details and the overall face. To address these limitations, we introduce ConsistentID, an innovative method crafted for diverseidentity-preserving portrait generation under fine-grained multimodal facial prompts, utilizing only a single reference image. ConsistentID comprises two key components: a multimodal facial prompt generator that combines facial features, corresponding facial descriptions and the overall facial context to enhance precision in facial details, and an ID-preservation network optimized through the facial attention localization strategy, aimed at preserving ID consistency in facial regions. Together, these components significantly enhance the accuracy of ID preservation by introducing fine-grained multimodal ID information from facial regions. To facilitate training of ConsistentID, we present a fine-grained portrait dataset, FGID, with over 500,000 facial images, offering greater diversity and comprehensiveness than existing public facial datasets. % such as LAION-Face, CelebA, FFHQ, and SFHQ. Experimental results substantiate that our ConsistentID achieves exceptional precision and diversity in personalized facial generation, surpassing existing methods in the MyStyle dataset. Furthermore, while ConsistentID introduces more multimodal ID information, it maintains a fast inference speed during generation.

Summary

AI-Generated Summary

PDF201December 15, 2024