ChatPaper.aiChatPaper

InstantCharacter: Personaliseer elke personage met een schaalbaar Diffusion Transformer Framework

InstantCharacter: Personalize Any Characters with a Scalable Diffusion Transformer Framework

April 16, 2025
Auteurs: Jiale Tao, Yanbing Zhang, Qixun Wang, Yiji Cheng, Haofan Wang, Xu Bai, Zhengguang Zhou, Ruihuang Li, Linqing Wang, Chunyu Wang, Qin Lin, Qinglin Lu
cs.AI

Samenvatting

Huidige op leren gebaseerde benaderingen voor het aanpassen van onderwerpen, die voornamelijk vertrouwen op U-Net-architecturen, hebben te kampen met beperkte generalisatiecapaciteit en verminderde beeldkwaliteit. Tegelijkertijd vereisen op optimalisatie gebaseerde methoden onderwerp-specifieke fine-tuning, wat onvermijdelijk de tekstuele bestuurbaarheid aantast. Om deze uitdagingen aan te pakken, stellen we InstantCharacter voor, een schaalbaar raamwerk voor karakteraanpassing gebouwd op een foundation diffusion transformer. InstantCharacter toont drie fundamentele voordelen: ten eerste bereikt het open-domein personalisatie over diverse karakteruitingen, poses en stijlen terwijl het hoogwaardige resultaten behoudt. Ten tweede introduceert het raamwerk een schaalbare adapter met gestapelde transformer-encoders, die effectief open-domein karakterkenmerken verwerkt en naadloos interageert met de latente ruimte van moderne diffusion transformers. Ten derde, om het raamwerk effectief te trainen, hebben we een grootschalige karakterdataset geconstrueerd met 10-miljoen-niveau samples. De dataset is systematisch georganiseerd in gepaarde (multi-view karakter) en ongepaarde (tekst-beeldcombinaties) subsets. Deze duale datastructuur maakt gelijktijdige optimalisatie van identiteitsconsistentie en tekstuele bewerkbaarheid mogelijk via verschillende leerpaden. Kwalitatieve experimenten tonen de geavanceerde mogelijkheden van InstantCharacter aan in het genereren van hoogwaardige, tekstbestuurbare en karakterconsistente afbeeldingen, wat een nieuwe standaard zet voor karaktergedreven beeldgeneratie. Onze broncode is beschikbaar op https://github.com/Tencent/InstantCharacter.
English
Current learning-based subject customization approaches, predominantly relying on U-Net architectures, suffer from limited generalization ability and compromised image quality. Meanwhile, optimization-based methods require subject-specific fine-tuning, which inevitably degrades textual controllability. To address these challenges, we propose InstantCharacter, a scalable framework for character customization built upon a foundation diffusion transformer. InstantCharacter demonstrates three fundamental advantages: first, it achieves open-domain personalization across diverse character appearances, poses, and styles while maintaining high-fidelity results. Second, the framework introduces a scalable adapter with stacked transformer encoders, which effectively processes open-domain character features and seamlessly interacts with the latent space of modern diffusion transformers. Third, to effectively train the framework, we construct a large-scale character dataset containing 10-million-level samples. The dataset is systematically organized into paired (multi-view character) and unpaired (text-image combinations) subsets. This dual-data structure enables simultaneous optimization of identity consistency and textual editability through distinct learning pathways. Qualitative experiments demonstrate the advanced capabilities of InstantCharacter in generating high-fidelity, text-controllable, and character-consistent images, setting a new benchmark for character-driven image generation. Our source code is available at https://github.com/Tencent/InstantCharacter.

Summary

AI-Generated Summary

PDF172April 18, 2025