ChatPaper.aiChatPaper

InstantCharacter : Personnalisation de tout personnage avec un framework de transformateur à diffusion scalable

InstantCharacter: Personalize Any Characters with a Scalable Diffusion Transformer Framework

April 16, 2025
Auteurs: Jiale Tao, Yanbing Zhang, Qixun Wang, Yiji Cheng, Haofan Wang, Xu Bai, Zhengguang Zhou, Ruihuang Li, Linqing Wang, Chunyu Wang, Qin Lin, Qinglin Lu
cs.AI

Résumé

Les approches actuelles de personnalisation de sujets basées sur l'apprentissage, reposant principalement sur des architectures U-Net, souffrent d'une capacité de généralisation limitée et d'une qualité d'image compromise. Par ailleurs, les méthodes basées sur l'optimisation nécessitent un ajustement spécifique au sujet, ce qui dégrade inévitablement la contrôlabilité textuelle. Pour relever ces défis, nous proposons InstantCharacter, un cadre évolutif pour la personnalisation de personnages, construit sur un transformateur de diffusion de base. InstantCharacter présente trois avantages fondamentaux : premièrement, il permet une personnalisation ouverte à divers apparences, poses et styles de personnages tout en maintenant des résultats de haute fidélité. Deuxièmement, le cadre introduit un adaptateur évolutif avec des encodeurs de transformateurs empilés, qui traite efficacement les caractéristiques de personnages ouverts et interagit de manière transparente avec l'espace latent des transformateurs de diffusion modernes. Troisièmement, pour entraîner efficacement le cadre, nous avons construit un vaste ensemble de données de personnages contenant des échantillons de l'ordre de 10 millions. L'ensemble de données est systématiquement organisé en sous-ensembles appariés (personnages multi-vues) et non appariés (combinaisons texte-image). Cette structure de données double permet une optimisation simultanée de la cohérence d'identité et de l'éditabilité textuelle via des voies d'apprentissage distinctes. Les expériences qualitatives démontrent les capacités avancées d'InstantCharacter à générer des images de haute fidélité, contrôlables par le texte et cohérentes avec les personnages, établissant ainsi un nouveau standard pour la génération d'images pilotée par les personnages. Notre code source est disponible à l'adresse https://github.com/Tencent/InstantCharacter.
English
Current learning-based subject customization approaches, predominantly relying on U-Net architectures, suffer from limited generalization ability and compromised image quality. Meanwhile, optimization-based methods require subject-specific fine-tuning, which inevitably degrades textual controllability. To address these challenges, we propose InstantCharacter, a scalable framework for character customization built upon a foundation diffusion transformer. InstantCharacter demonstrates three fundamental advantages: first, it achieves open-domain personalization across diverse character appearances, poses, and styles while maintaining high-fidelity results. Second, the framework introduces a scalable adapter with stacked transformer encoders, which effectively processes open-domain character features and seamlessly interacts with the latent space of modern diffusion transformers. Third, to effectively train the framework, we construct a large-scale character dataset containing 10-million-level samples. The dataset is systematically organized into paired (multi-view character) and unpaired (text-image combinations) subsets. This dual-data structure enables simultaneous optimization of identity consistency and textual editability through distinct learning pathways. Qualitative experiments demonstrate the advanced capabilities of InstantCharacter in generating high-fidelity, text-controllable, and character-consistent images, setting a new benchmark for character-driven image generation. Our source code is available at https://github.com/Tencent/InstantCharacter.

Summary

AI-Generated Summary

PDF172April 18, 2025