InstantCharacter:スケーラブルなDiffusion Transformerフレームワークによる任意のキャラクターのパーソナライズ
InstantCharacter: Personalize Any Characters with a Scalable Diffusion Transformer Framework
April 16, 2025
著者: Jiale Tao, Yanbing Zhang, Qixun Wang, Yiji Cheng, Haofan Wang, Xu Bai, Zhengguang Zhou, Ruihuang Li, Linqing Wang, Chunyu Wang, Qin Lin, Qinglin Lu
cs.AI
要旨
現在の学習ベースのキャラクターカスタマイズ手法は、主にU-Netアーキテクチャに依存しており、汎化能力が限られ、画質が低下するという課題を抱えています。一方、最適化ベースの手法では、対象ごとの微調整が必要であり、これによりテキストの制御性が必然的に損なわれます。これらの課題に対処するため、我々はInstantCharacterを提案します。これは、基盤となる拡散トランスフォーマーに基づいたスケーラブルなキャラクターカスタマイズフレームワークです。InstantCharacterは、以下の3つの基本的な利点を有しています。第一に、多様なキャラクターの外見、ポーズ、スタイルにわたるオープンドメインのパーソナライゼーションを実現しつつ、高忠実度の結果を維持します。第二に、スタックされたトランスフォーマーエンコーダーを備えたスケーラブルなアダプターを導入し、オープンドメインのキャラクター特徴を効果的に処理し、現代の拡散トランスフォーマーの潜在空間とシームレスに相互作用します。第三に、フレームワークを効果的に訓練するため、1000万レベルのサンプルを含む大規模なキャラクターデータセットを構築しました。このデータセットは、ペア(マルチビューキャラクター)と非ペア(テキスト-画像の組み合わせ)のサブセットに体系的に整理されています。この二重データ構造により、異なる学習経路を通じて、アイデンティティの一貫性とテキスト編集性を同時に最適化することが可能です。定性実験により、InstantCharacterが高忠実度でテキスト制御可能かつキャラクター一貫性のある画像を生成する先進的な能力を実証し、キャラクター駆動型画像生成の新たなベンチマークを確立しました。ソースコードはhttps://github.com/Tencent/InstantCharacterで公開されています。
English
Current learning-based subject customization approaches, predominantly
relying on U-Net architectures, suffer from limited generalization ability and
compromised image quality. Meanwhile, optimization-based methods require
subject-specific fine-tuning, which inevitably degrades textual
controllability. To address these challenges, we propose InstantCharacter, a
scalable framework for character customization built upon a foundation
diffusion transformer. InstantCharacter demonstrates three fundamental
advantages: first, it achieves open-domain personalization across diverse
character appearances, poses, and styles while maintaining high-fidelity
results. Second, the framework introduces a scalable adapter with stacked
transformer encoders, which effectively processes open-domain character
features and seamlessly interacts with the latent space of modern diffusion
transformers. Third, to effectively train the framework, we construct a
large-scale character dataset containing 10-million-level samples. The dataset
is systematically organized into paired (multi-view character) and unpaired
(text-image combinations) subsets. This dual-data structure enables
simultaneous optimization of identity consistency and textual editability
through distinct learning pathways. Qualitative experiments demonstrate the
advanced capabilities of InstantCharacter in generating high-fidelity,
text-controllable, and character-consistent images, setting a new benchmark for
character-driven image generation. Our source code is available at
https://github.com/Tencent/InstantCharacter.Summary
AI-Generated Summary