InstantCharacter: Personalisierung beliebiger Charaktere mit einem skalierbaren Diffusions-Transformer-Framework
InstantCharacter: Personalize Any Characters with a Scalable Diffusion Transformer Framework
April 16, 2025
Autoren: Jiale Tao, Yanbing Zhang, Qixun Wang, Yiji Cheng, Haofan Wang, Xu Bai, Zhengguang Zhou, Ruihuang Li, Linqing Wang, Chunyu Wang, Qin Lin, Qinglin Lu
cs.AI
Zusammenfassung
Aktuelle lernbasierte Ansätze zur Subjektanpassung, die hauptsächlich auf U-Net-Architekturen basieren, leiden unter begrenzter Generalisierungsfähigkeit und beeinträchtigter Bildqualität. Gleichzeitig erfordern optimierungsbasierte Methoden eine subjektspezifische Feinabstimmung, was unweigerlich die textuelle Steuerbarkeit beeinträchtigt. Um diese Herausforderungen zu bewältigen, schlagen wir InstantCharacter vor, ein skalierbares Framework für die Charakteranpassung, das auf einem Foundation-Diffusion-Transformer basiert. InstantCharacter weist drei grundlegende Vorteile auf: Erstens erreicht es eine Open-Domain-Personalisierung über diverse Charaktererscheinungen, Posen und Stile hinweg, während es hochwertige Ergebnisse liefert. Zweitens führt das Framework einen skalierbaren Adapter mit gestapelten Transformer-Encodern ein, der effektiv Open-Domain-Charaktermerkmale verarbeitet und nahtlos mit dem latenten Raum moderner Diffusion-Transformer interagiert. Drittens haben wir zur effektiven Schulung des Frameworks einen groß angelegten Charakterdatensatz mit 10-Millionen-Level-Proben erstellt. Der Datensatz ist systematisch in gepaarte (Multi-View-Charakter) und ungepaarte (Text-Bild-Kombinationen) Teilmengen organisiert. Diese duale Datenstruktur ermöglicht die gleichzeitige Optimierung von Identitätskonsistenz und textueller Bearbeitbarkeit durch unterschiedliche Lernpfade. Qualitative Experimente demonstrieren die fortgeschrittenen Fähigkeiten von InstantCharacter bei der Erzeugung von hochwertigen, textgesteuerten und charakterkonsistenten Bildern, wodurch ein neuer Maßstab für die charaktergesteuerte Bildgenerierung gesetzt wird. Unser Quellcode ist verfügbar unter https://github.com/Tencent/InstantCharacter.
English
Current learning-based subject customization approaches, predominantly
relying on U-Net architectures, suffer from limited generalization ability and
compromised image quality. Meanwhile, optimization-based methods require
subject-specific fine-tuning, which inevitably degrades textual
controllability. To address these challenges, we propose InstantCharacter, a
scalable framework for character customization built upon a foundation
diffusion transformer. InstantCharacter demonstrates three fundamental
advantages: first, it achieves open-domain personalization across diverse
character appearances, poses, and styles while maintaining high-fidelity
results. Second, the framework introduces a scalable adapter with stacked
transformer encoders, which effectively processes open-domain character
features and seamlessly interacts with the latent space of modern diffusion
transformers. Third, to effectively train the framework, we construct a
large-scale character dataset containing 10-million-level samples. The dataset
is systematically organized into paired (multi-view character) and unpaired
(text-image combinations) subsets. This dual-data structure enables
simultaneous optimization of identity consistency and textual editability
through distinct learning pathways. Qualitative experiments demonstrate the
advanced capabilities of InstantCharacter in generating high-fidelity,
text-controllable, and character-consistent images, setting a new benchmark for
character-driven image generation. Our source code is available at
https://github.com/Tencent/InstantCharacter.Summary
AI-Generated Summary