ChatPaper.aiChatPaper

Infinite-ID: ID-의미론 분리 패러다임을 통한 정체성 보존 개인화

Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm

March 18, 2024
저자: Yi Wu, Ziqiang Li, Heliang Zheng, Chaoyue Wang, Bin Li
cs.AI

초록

텍스트-이미지 생성을 위한 확산 모델의 최근 발전을 바탕으로, 단일 참조 이미지만으로도 특정 정체성을 정확하게 포착하는 정체성 보존 개인화 기술이 상당한 진전을 이루었습니다. 그러나 기존 방법들은 주로 참조 이미지를 텍스트 임베딩 공간 내에서 통합함으로써 이미지와 텍스트 정보가 복잡하게 얽히게 되어, 정체성 충실도와 의미 일관성을 동시에 보존하는 데 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 정체성 보존 개인화를 위한 ID-의미 분리 패러다임인 Infinite-ID를 제안합니다. 구체적으로, 우리는 확산 모델의 기존 텍스트 교차 주의 모듈을 비활성화하면서 충분한 ID 정보를 포착하기 위한 추가적인 이미지 교차 주의 모듈을 도입하여 정체성 강화 학습을 소개합니다. 이를 통해 이미지 스트림이 참조 이미지로부터 제공된 정체성을 충실히 표현하면서도 텍스트 입력으로 인한 간섭을 최소화합니다. 또한, 우리는 혼합 주의 모듈과 AdaIN-mean 연산을 결합한 특징 상호작용 메커니즘을 도입하여 두 스트림을 원활하게 통합합니다. 이 메커니즘은 정체성 충실도와 의미 일관성을 강화할 뿐만 아니라 생성된 이미지의 스타일을 편리하게 제어할 수 있게 합니다. 원본 사진 생성과 스타일 이미지 생성에 대한 광범위한 실험 결과는 우리가 제안한 방법의 우수한 성능을 입증합니다.
English
Drawing on recent advancements in diffusion models for text-to-image generation, identity-preserved personalization has made significant progress in accurately capturing specific identities with just a single reference image. However, existing methods primarily integrate reference images within the text embedding space, leading to a complex entanglement of image and text information, which poses challenges for preserving both identity fidelity and semantic consistency. To tackle this challenge, we propose Infinite-ID, an ID-semantics decoupling paradigm for identity-preserved personalization. Specifically, we introduce identity-enhanced training, incorporating an additional image cross-attention module to capture sufficient ID information while deactivating the original text cross-attention module of the diffusion model. This ensures that the image stream faithfully represents the identity provided by the reference image while mitigating interference from textual input. Additionally, we introduce a feature interaction mechanism that combines a mixed attention module with an AdaIN-mean operation to seamlessly merge the two streams. This mechanism not only enhances the fidelity of identity and semantic consistency but also enables convenient control over the styles of the generated images. Extensive experimental results on both raw photo generation and style image generation demonstrate the superior performance of our proposed method.

Summary

AI-Generated Summary

PDF202December 15, 2024