InstantCharacter: 확장 가능한 Diffusion Transformer 프레임워크로 모든 캐릭터를 개인화하다
InstantCharacter: Personalize Any Characters with a Scalable Diffusion Transformer Framework
April 16, 2025
저자: Jiale Tao, Yanbing Zhang, Qixun Wang, Yiji Cheng, Haofan Wang, Xu Bai, Zhengguang Zhou, Ruihuang Li, Linqing Wang, Chunyu Wang, Qin Lin, Qinglin Lu
cs.AI
초록
현재의 학습 기반 주체 맞춤화 접근 방식은 주로 U-Net 아키텍처에 의존하고 있어, 제한된 일반화 능력과 저하된 이미지 품질 문제를 겪고 있습니다. 한편, 최적화 기반 방법은 주체별 미세 조정이 필요하며, 이는 필연적으로 텍스트 제어 가능성을 저하시킵니다. 이러한 문제를 해결하기 위해, 우리는 기반 확산 트랜스포머를 기반으로 한 캐릭터 맞춤화를 위한 확장 가능한 프레임워크인 InstantCharacter를 제안합니다. InstantCharacter는 세 가지 기본적인 장점을 보여줍니다: 첫째, 다양한 캐릭터 외모, 포즈, 스타일을 넘나드는 개방형 도메인 개인화를 달성하면서도 고해상도 결과를 유지합니다. 둘째, 이 프레임워크는 스택된 트랜스포머 인코더로 구성된 확장 가능한 어댑터를 도입하여, 개방형 도메인 캐릭터 특징을 효과적으로 처리하고 현대 확산 트랜스포머의 잠재 공간과 원활하게 상호작용합니다. 셋째, 프레임워크를 효과적으로 학습시키기 위해, 우리는 1천만 수준의 샘플을 포함하는 대규모 캐릭터 데이터셋을 구축했습니다. 이 데이터셋은 짝을 이루는 (다중 시점 캐릭터) 데이터와 짝을 이루지 않는 (텍스트-이미지 조합) 데이터의 하위 집합으로 체계적으로 구성되어 있습니다. 이 이중 데이터 구조는 별도의 학습 경로를 통해 일관성 있는 정체성과 텍스트 편집 가능성을 동시에 최적화할 수 있게 합니다. 정성적 실험은 InstantCharacter가 고해상도, 텍스트 제어 가능, 캐릭터 일관성 있는 이미지를 생성하는 데 있어 뛰어난 능력을 보여주며, 캐릭터 주도 이미지 생성 분야에서 새로운 벤치마크를 제시합니다. 우리의 소스 코드는 https://github.com/Tencent/InstantCharacter에서 확인할 수 있습니다.
English
Current learning-based subject customization approaches, predominantly
relying on U-Net architectures, suffer from limited generalization ability and
compromised image quality. Meanwhile, optimization-based methods require
subject-specific fine-tuning, which inevitably degrades textual
controllability. To address these challenges, we propose InstantCharacter, a
scalable framework for character customization built upon a foundation
diffusion transformer. InstantCharacter demonstrates three fundamental
advantages: first, it achieves open-domain personalization across diverse
character appearances, poses, and styles while maintaining high-fidelity
results. Second, the framework introduces a scalable adapter with stacked
transformer encoders, which effectively processes open-domain character
features and seamlessly interacts with the latent space of modern diffusion
transformers. Third, to effectively train the framework, we construct a
large-scale character dataset containing 10-million-level samples. The dataset
is systematically organized into paired (multi-view character) and unpaired
(text-image combinations) subsets. This dual-data structure enables
simultaneous optimization of identity consistency and textual editability
through distinct learning pathways. Qualitative experiments demonstrate the
advanced capabilities of InstantCharacter in generating high-fidelity,
text-controllable, and character-consistent images, setting a new benchmark for
character-driven image generation. Our source code is available at
https://github.com/Tencent/InstantCharacter.Summary
AI-Generated Summary