ChatPaper.aiChatPaper

InstantCharacter: Personalizzazione di qualsiasi personaggio con un framework scalabile basato su Transformer e Diffusion

InstantCharacter: Personalize Any Characters with a Scalable Diffusion Transformer Framework

April 16, 2025
Autori: Jiale Tao, Yanbing Zhang, Qixun Wang, Yiji Cheng, Haofan Wang, Xu Bai, Zhengguang Zhou, Ruihuang Li, Linqing Wang, Chunyu Wang, Qin Lin, Qinglin Lu
cs.AI

Abstract

Gli attuali approcci di personalizzazione basati sull'apprendimento, che si basano prevalentemente su architetture U-Net, soffrono di una limitata capacità di generalizzazione e di una qualità dell'immagine compromessa. Nel frattempo, i metodi basati sull'ottimizzazione richiedono una messa a punto specifica per ogni soggetto, il che inevitabilmente riduce la controllabilità testuale. Per affrontare queste sfide, proponiamo InstantCharacter, un framework scalabile per la personalizzazione dei personaggi costruito su un transformer di diffusione di base. InstantCharacter dimostra tre vantaggi fondamentali: in primo luogo, raggiunge una personalizzazione open-domain attraverso diverse apparenze, pose e stili di personaggi mantenendo risultati ad alta fedeltà. In secondo luogo, il framework introduce un adattatore scalabile con encoder transformer impilati, che elabora efficacemente le caratteristiche dei personaggi open-domain e interagisce in modo fluido con lo spazio latente dei moderni transformer di diffusione. In terzo luogo, per addestrare efficacemente il framework, abbiamo costruito un ampio dataset di personaggi contenente 10 milioni di campioni. Il dataset è organizzato sistematicamente in sottoinsiemi accoppiati (personaggi multi-vista) e non accoppiati (combinazioni testo-immagine). Questa struttura dati duale consente l'ottimizzazione simultanea della consistenza dell'identità e dell'editabilità testuale attraverso percorsi di apprendimento distinti. Esperimenti qualitativi dimostrano le capacità avanzate di InstantCharacter nella generazione di immagini ad alta fedeltà, controllabili tramite testo e coerenti con i personaggi, stabilendo un nuovo punto di riferimento per la generazione di immagini guidata dai personaggi. Il nostro codice sorgente è disponibile all'indirizzo https://github.com/Tencent/InstantCharacter.
English
Current learning-based subject customization approaches, predominantly relying on U-Net architectures, suffer from limited generalization ability and compromised image quality. Meanwhile, optimization-based methods require subject-specific fine-tuning, which inevitably degrades textual controllability. To address these challenges, we propose InstantCharacter, a scalable framework for character customization built upon a foundation diffusion transformer. InstantCharacter demonstrates three fundamental advantages: first, it achieves open-domain personalization across diverse character appearances, poses, and styles while maintaining high-fidelity results. Second, the framework introduces a scalable adapter with stacked transformer encoders, which effectively processes open-domain character features and seamlessly interacts with the latent space of modern diffusion transformers. Third, to effectively train the framework, we construct a large-scale character dataset containing 10-million-level samples. The dataset is systematically organized into paired (multi-view character) and unpaired (text-image combinations) subsets. This dual-data structure enables simultaneous optimization of identity consistency and textual editability through distinct learning pathways. Qualitative experiments demonstrate the advanced capabilities of InstantCharacter in generating high-fidelity, text-controllable, and character-consistent images, setting a new benchmark for character-driven image generation. Our source code is available at https://github.com/Tencent/InstantCharacter.

Summary

AI-Generated Summary

PDF172April 18, 2025