ChatPaper.aiChatPaper

InstantCharacter: Персонализация любых персонажей с помощью масштабируемой трансформаторной архитектуры на основе диффузии

InstantCharacter: Personalize Any Characters with a Scalable Diffusion Transformer Framework

April 16, 2025
Авторы: Jiale Tao, Yanbing Zhang, Qixun Wang, Yiji Cheng, Haofan Wang, Xu Bai, Zhengguang Zhou, Ruihuang Li, Linqing Wang, Chunyu Wang, Qin Lin, Qinglin Lu
cs.AI

Аннотация

Современные подходы к персонализированной настройке на основе обучения, преимущественно опирающиеся на архитектуры U-Net, страдают от ограниченной способности к обобщению и сниженного качества изображений. В то же время методы, основанные на оптимизации, требуют тонкой настройки для каждого конкретного объекта, что неизбежно ухудшает текстовую управляемость. Для решения этих проблем мы предлагаем InstantCharacter, масштабируемую платформу для персонализации персонажей, построенную на основе диффузионного трансформера. InstantCharacter демонстрирует три фундаментальных преимущества: во-первых, она обеспечивает персонализацию в открытой области, охватывая разнообразные внешности, позы и стили персонажей, сохраняя при этом высокую точность результатов. Во-вторых, платформа включает масштабируемый адаптер с многослойными трансформерными кодировщиками, который эффективно обрабатывает признаки персонажей в открытой области и бесшовно взаимодействует с латентным пространством современных диффузионных трансформеров. В-третьих, для эффективного обучения платформы мы создали крупномасштабный набор данных о персонажах, содержащий 10 миллионов образцов. Набор данных систематически организован в парные (многовидовые изображения персонажей) и непарные (текстово-изобразительные комбинации) подмножества. Эта двойная структура данных позволяет одновременно оптимизировать согласованность идентичности и возможность текстового редактирования через различные пути обучения. Качественные эксперименты демонстрируют передовые возможности InstantCharacter в генерации высококачественных, текстово-управляемых и согласованных с персонажем изображений, устанавливая новый стандарт для генерации изображений, управляемых персонажами. Наш исходный код доступен по адресу https://github.com/Tencent/InstantCharacter.
English
Current learning-based subject customization approaches, predominantly relying on U-Net architectures, suffer from limited generalization ability and compromised image quality. Meanwhile, optimization-based methods require subject-specific fine-tuning, which inevitably degrades textual controllability. To address these challenges, we propose InstantCharacter, a scalable framework for character customization built upon a foundation diffusion transformer. InstantCharacter demonstrates three fundamental advantages: first, it achieves open-domain personalization across diverse character appearances, poses, and styles while maintaining high-fidelity results. Second, the framework introduces a scalable adapter with stacked transformer encoders, which effectively processes open-domain character features and seamlessly interacts with the latent space of modern diffusion transformers. Third, to effectively train the framework, we construct a large-scale character dataset containing 10-million-level samples. The dataset is systematically organized into paired (multi-view character) and unpaired (text-image combinations) subsets. This dual-data structure enables simultaneous optimization of identity consistency and textual editability through distinct learning pathways. Qualitative experiments demonstrate the advanced capabilities of InstantCharacter in generating high-fidelity, text-controllable, and character-consistent images, setting a new benchmark for character-driven image generation. Our source code is available at https://github.com/Tencent/InstantCharacter.

Summary

AI-Generated Summary

PDF172April 18, 2025