InstantCharacter: Personalização de Personagens com um Framework Escalável de Transformadores de Difusão
InstantCharacter: Personalize Any Characters with a Scalable Diffusion Transformer Framework
April 16, 2025
Autores: Jiale Tao, Yanbing Zhang, Qixun Wang, Yiji Cheng, Haofan Wang, Xu Bai, Zhengguang Zhou, Ruihuang Li, Linqing Wang, Chunyu Wang, Qin Lin, Qinglin Lu
cs.AI
Resumo
As abordagens atuais de personalização de sujeitos baseadas em aprendizado, que predominantemente dependem de arquiteturas U-Net, sofrem com capacidade limitada de generalização e qualidade de imagem comprometida. Enquanto isso, métodos baseados em otimização exigem ajustes específicos para cada sujeito, o que inevitavelmente degrada a controlabilidade textual. Para enfrentar esses desafios, propomos o InstantCharacter, uma estrutura escalável para personalização de personagens construída sobre um transformer de difusão fundamental. O InstantCharacter demonstra três vantagens fundamentais: primeiro, ele alcança personalização em domínio aberto através de diversas aparências, poses e estilos de personagens, mantendo resultados de alta fidelidade. Segundo, a estrutura introduz um adaptador escalável com codificadores transformer empilhados, que processa eficientemente características de personagens em domínio aberto e interage perfeitamente com o espaço latente de transformers de difusão modernos. Terceiro, para treinar efetivamente a estrutura, construímos um grande conjunto de dados de personagens contendo amostras na ordem de 10 milhões. O conjunto de dados é organizado sistematicamente em subconjuntos pareados (personagens com múltiplas visões) e não pareados (combinações de texto-imagem). Essa estrutura dual de dados permite a otimização simultânea da consistência de identidade e da editabilidade textual através de caminhos de aprendizado distintos. Experimentos qualitativos demonstram as capacidades avançadas do InstantCharacter na geração de imagens de alta fidelidade, controláveis por texto e consistentes com o personagem, estabelecendo um novo padrão para geração de imagens orientada por personagens. Nosso código-fonte está disponível em https://github.com/Tencent/InstantCharacter.
English
Current learning-based subject customization approaches, predominantly
relying on U-Net architectures, suffer from limited generalization ability and
compromised image quality. Meanwhile, optimization-based methods require
subject-specific fine-tuning, which inevitably degrades textual
controllability. To address these challenges, we propose InstantCharacter, a
scalable framework for character customization built upon a foundation
diffusion transformer. InstantCharacter demonstrates three fundamental
advantages: first, it achieves open-domain personalization across diverse
character appearances, poses, and styles while maintaining high-fidelity
results. Second, the framework introduces a scalable adapter with stacked
transformer encoders, which effectively processes open-domain character
features and seamlessly interacts with the latent space of modern diffusion
transformers. Third, to effectively train the framework, we construct a
large-scale character dataset containing 10-million-level samples. The dataset
is systematically organized into paired (multi-view character) and unpaired
(text-image combinations) subsets. This dual-data structure enables
simultaneous optimization of identity consistency and textual editability
through distinct learning pathways. Qualitative experiments demonstrate the
advanced capabilities of InstantCharacter in generating high-fidelity,
text-controllable, and character-consistent images, setting a new benchmark for
character-driven image generation. Our source code is available at
https://github.com/Tencent/InstantCharacter.Summary
AI-Generated Summary