InfiniteYou: 정체성 유지와 함께 유연한 사진 재창작
InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity
March 20, 2025
저자: Liming Jiang, Qing Yan, Yumin Jia, Zichuan Liu, Hao Kang, Xin Lu
cs.AI
초록
유연하고 고품질의 정체성 보존 이미지 생성은 특히 FLUX와 같은 고급 Diffusion Transformer(DiT)를 사용할 때 여전히 어려운 과제로 남아 있습니다. 우리는 이 작업을 위해 DiT를 활용한 초기 강력한 프레임워크 중 하나인 InfiniteYou(InfU)를 소개합니다. InfU는 기존 방법들의 주요 문제점인 부족한 정체성 유사성, 낮은 텍스트-이미지 정렬, 그리고 낮은 생성 품질과 미적 요소를 해결합니다. InfU의 핵심은 InfuseNet으로, 이는 잔차 연결을 통해 DiT 기본 모델에 정체성 특성을 주입하여 생성 능력을 유지하면서 정체성 유사성을 향상시킵니다. 합성된 단일 인물-다중 샘플(SPMS) 데이터를 사용한 사전 학습과 지도 미세 조정(SFT)을 포함한 다단계 학습 전략은 텍스트-이미지 정렬을 개선하고 이미지 품질을 향상시키며 얼굴 복사-붙여넣기 문제를 완화합니다. 광범위한 실험을 통해 InfU가 최신 기술을 능가하는 성능을 달성하며 기존 베이스라인을 뛰어넘는 것을 입증했습니다. 또한, InfU의 플러그 앤 플레이 설계는 다양한 기존 방법과의 호환성을 보장하여 더 넓은 커뮤니티에 가치 있는 기여를 제공합니다.
English
Achieving flexible and high-fidelity identity-preserved image generation
remains formidable, particularly with advanced Diffusion Transformers (DiTs)
like FLUX. We introduce InfiniteYou (InfU), one of the earliest robust
frameworks leveraging DiTs for this task. InfU addresses significant issues of
existing methods, such as insufficient identity similarity, poor text-image
alignment, and low generation quality and aesthetics. Central to InfU is
InfuseNet, a component that injects identity features into the DiT base model
via residual connections, enhancing identity similarity while maintaining
generation capabilities. A multi-stage training strategy, including pretraining
and supervised fine-tuning (SFT) with synthetic single-person-multiple-sample
(SPMS) data, further improves text-image alignment, ameliorates image quality,
and alleviates face copy-pasting. Extensive experiments demonstrate that InfU
achieves state-of-the-art performance, surpassing existing baselines. In
addition, the plug-and-play design of InfU ensures compatibility with various
existing methods, offering a valuable contribution to the broader community.Summary
AI-Generated Summary