InstantCharacter: Personalización de cualquier personaje con un marco escalable de Transformadores de Difusión
InstantCharacter: Personalize Any Characters with a Scalable Diffusion Transformer Framework
April 16, 2025
Autores: Jiale Tao, Yanbing Zhang, Qixun Wang, Yiji Cheng, Haofan Wang, Xu Bai, Zhengguang Zhou, Ruihuang Li, Linqing Wang, Chunyu Wang, Qin Lin, Qinglin Lu
cs.AI
Resumen
Los enfoques actuales de personalización de sujetos basados en aprendizaje, que dependen predominantemente de arquitecturas U-Net, presentan una capacidad de generalización limitada y una calidad de imagen comprometida. Mientras tanto, los métodos basados en optimización requieren un ajuste específico para cada sujeto, lo que inevitablemente degrada la controlabilidad textual. Para abordar estos desafíos, proponemos InstantCharacter, un marco escalable para la personalización de personajes construido sobre un transformador de difusión base. InstantCharacter demuestra tres ventajas fundamentales: primero, logra personalización en dominios abiertos a través de diversas apariencias, poses y estilos de personajes, manteniendo resultados de alta fidelidad. Segundo, el marco introduce un adaptador escalable con codificadores de transformadores apilados, que procesa eficazmente características de personajes en dominios abiertos e interactúa sin problemas con el espacio latente de los transformadores de difusión modernos. Tercero, para entrenar eficazmente el marco, construimos un conjunto de datos de personajes a gran escala que contiene muestras de nivel de 10 millones. El conjunto de datos está organizado sistemáticamente en subconjuntos emparejados (personajes de múltiples vistas) y no emparejados (combinaciones de texto-imagen). Esta estructura de datos dual permite la optimización simultánea de la consistencia de identidad y la editabilidad textual a través de rutas de aprendizaje distintas. Los experimentos cualitativos demuestran las capacidades avanzadas de InstantCharacter en la generación de imágenes de alta fidelidad, controlables textualmente y consistentes con el personaje, estableciendo un nuevo estándar para la generación de imágenes impulsada por personajes. Nuestro código fuente está disponible en https://github.com/Tencent/InstantCharacter.
English
Current learning-based subject customization approaches, predominantly
relying on U-Net architectures, suffer from limited generalization ability and
compromised image quality. Meanwhile, optimization-based methods require
subject-specific fine-tuning, which inevitably degrades textual
controllability. To address these challenges, we propose InstantCharacter, a
scalable framework for character customization built upon a foundation
diffusion transformer. InstantCharacter demonstrates three fundamental
advantages: first, it achieves open-domain personalization across diverse
character appearances, poses, and styles while maintaining high-fidelity
results. Second, the framework introduces a scalable adapter with stacked
transformer encoders, which effectively processes open-domain character
features and seamlessly interacts with the latent space of modern diffusion
transformers. Third, to effectively train the framework, we construct a
large-scale character dataset containing 10-million-level samples. The dataset
is systematically organized into paired (multi-view character) and unpaired
(text-image combinations) subsets. This dual-data structure enables
simultaneous optimization of identity consistency and textual editability
through distinct learning pathways. Qualitative experiments demonstrate the
advanced capabilities of InstantCharacter in generating high-fidelity,
text-controllable, and character-consistent images, setting a new benchmark for
character-driven image generation. Our source code is available at
https://github.com/Tencent/InstantCharacter.Summary
AI-Generated Summary