StableIdentity: Inserire Chiunque in Qualsiasi Luogo a Prima Vista
StableIdentity: Inserting Anybody into Anywhere at First Sight
January 29, 2024
Autori: Qinghe Wang, Xu Jia, Xiaomin Li, Taiqing Li, Liqian Ma, Yunzhi Zhuge, Huchuan Lu
cs.AI
Abstract
I recenti progressi nei modelli di testo-immagine pre-addestrati su larga scala hanno dimostrato capacità senza precedenti per la generazione di alta qualità incentrata sull'uomo. Tuttavia, personalizzare l'identità del volto rimane un problema intrattabile. I metodi esistenti non possono garantire una preservazione stabile dell'identità e un'editabilità flessibile, anche con diverse immagini per ogni soggetto durante l'addestramento. In questo lavoro, proponiamo StableIdentity, che consente la ricontestualizzazione con identità coerente utilizzando una sola immagine del volto. Più specificamente, utilizziamo un codificatore di volti con un prior di identità per codificare il volto in ingresso, e poi proiettiamo la rappresentazione del volto in uno spazio con un prior di editabilità, costruito da nomi di celebrità. Incorporando il prior di identità e il prior di editabilità, l'identità appresa può essere iniettata ovunque con vari contesti. Inoltre, progettiamo una perdita di diffusione a due fasi mascherata per migliorare la percezione a livello di pixel del volto in ingresso e mantenere la diversità della generazione. Esperimenti estensivi dimostrano che il nostro metodo supera i precedenti metodi di personalizzazione. Inoltre, l'identità appresa può essere combinata flessibilmente con moduli pronti all'uso come ControlNet. È importante notare che, a nostra conoscenza, siamo i primi a iniettare direttamente l'identità appresa da una singola immagine nella generazione di video/3D senza fine-tuning. Crediamo che il proposto StableIdentity sia un passo importante per unificare i modelli di generazione personalizzata di immagini, video e 3D.
English
Recent advances in large pretrained text-to-image models have shown
unprecedented capabilities for high-quality human-centric generation, however,
customizing face identity is still an intractable problem. Existing methods
cannot ensure stable identity preservation and flexible editability, even with
several images for each subject during training. In this work, we propose
StableIdentity, which allows identity-consistent recontextualization with just
one face image. More specifically, we employ a face encoder with an identity
prior to encode the input face, and then land the face representation into a
space with an editable prior, which is constructed from celeb names. By
incorporating identity prior and editability prior, the learned identity can be
injected anywhere with various contexts. In addition, we design a masked
two-phase diffusion loss to boost the pixel-level perception of the input face
and maintain the diversity of generation. Extensive experiments demonstrate our
method outperforms previous customization methods. In addition, the learned
identity can be flexibly combined with the off-the-shelf modules such as
ControlNet. Notably, to the best knowledge, we are the first to directly inject
the identity learned from a single image into video/3D generation without
finetuning. We believe that the proposed StableIdentity is an important step to
unify image, video, and 3D customized generation models.