InstantCharacter: Personalisierung beliebiger Charaktere mit einem skalierbaren Diffusions-Transformer-Framework

papers.abstract

Aktuelle lernbasierte Ansätze zur Subjektanpassung, die hauptsächlich auf U-Net-Architekturen basieren, leiden unter begrenzter Generalisierungsfähigkeit und beeinträchtigter Bildqualität. Gleichzeitig erfordern optimierungsbasierte Methoden eine subjektspezifische Feinabstimmung, was unweigerlich die textuelle Steuerbarkeit beeinträchtigt. Um diese Herausforderungen zu bewältigen, schlagen wir InstantCharacter vor, ein skalierbares Framework für die Charakteranpassung, das auf einem Foundation-Diffusion-Transformer basiert. InstantCharacter weist drei grundlegende Vorteile auf: Erstens erreicht es eine Open-Domain-Personalisierung über diverse Charaktererscheinungen, Posen und Stile hinweg, während es hochwertige Ergebnisse liefert. Zweitens führt das Framework einen skalierbaren Adapter mit gestapelten Transformer-Encodern ein, der effektiv Open-Domain-Charaktermerkmale verarbeitet und nahtlos mit dem latenten Raum moderner Diffusion-Transformer interagiert. Drittens haben wir zur effektiven Schulung des Frameworks einen groß angelegten Charakterdatensatz mit 10-Millionen-Level-Proben erstellt. Der Datensatz ist systematisch in gepaarte (Multi-View-Charakter) und ungepaarte (Text-Bild-Kombinationen) Teilmengen organisiert. Diese duale Datenstruktur ermöglicht die gleichzeitige Optimierung von Identitätskonsistenz und textueller Bearbeitbarkeit durch unterschiedliche Lernpfade. Qualitative Experimente demonstrieren die fortgeschrittenen Fähigkeiten von InstantCharacter bei der Erzeugung von hochwertigen, textgesteuerten und charakterkonsistenten Bildern, wodurch ein neuer Maßstab für die charaktergesteuerte Bildgenerierung gesetzt wird. Unser Quellcode ist verfügbar unter https://github.com/Tencent/InstantCharacter.

English

Current learning-based subject customization approaches, predominantly relying on U-Net architectures, suffer from limited generalization ability and compromised image quality. Meanwhile, optimization-based methods require subject-specific fine-tuning, which inevitably degrades textual controllability. To address these challenges, we propose InstantCharacter, a scalable framework for character customization built upon a foundation diffusion transformer. InstantCharacter demonstrates three fundamental advantages: first, it achieves open-domain personalization across diverse character appearances, poses, and styles while maintaining high-fidelity results. Second, the framework introduces a scalable adapter with stacked transformer encoders, which effectively processes open-domain character features and seamlessly interacts with the latent space of modern diffusion transformers. Third, to effectively train the framework, we construct a large-scale character dataset containing 10-million-level samples. The dataset is systematically organized into paired (multi-view character) and unpaired (text-image combinations) subsets. This dual-data structure enables simultaneous optimization of identity consistency and textual editability through distinct learning pathways. Qualitative experiments demonstrate the advanced capabilities of InstantCharacter in generating high-fidelity, text-controllable, and character-consistent images, setting a new benchmark for character-driven image generation. Our source code is available at https://github.com/Tencent/InstantCharacter.

InstantCharacter: Personalisierung beliebiger Charaktere mit einem skalierbaren Diffusions-Transformer-Framework

InstantCharacter: Personalize Any Characters with a Scalable Diffusion Transformer Framework

papers.abstract

Support