StableIdentity: Iedereen overal invoegen op het eerste gezicht
StableIdentity: Inserting Anybody into Anywhere at First Sight
January 29, 2024
Auteurs: Qinghe Wang, Xu Jia, Xiaomin Li, Taiqing Li, Liqian Ma, Yunzhi Zhuge, Huchuan Lu
cs.AI
Samenvatting
Recente vooruitgang in grote vooraf getrainde tekst-naar-beeldmodellen heeft ongekende mogelijkheden getoond voor hoogwaardige, mensgerichte generatie. Het aanpassen van gezichtsidentiteit blijft echter een hardnekkig probleem. Bestaande methoden kunnen geen stabiele identiteitsbehoud en flexibele bewerkbaarheid garanderen, zelfs niet met meerdere afbeeldingen per persoon tijdens de training. In dit werk stellen we StableIdentity voor, dat identiteitsconsistente hercontextualisatie mogelijk maakt met slechts één gezichtsafbeelding. Meer specifiek gebruiken we een gezichtscodering met een identiteitsprior om het invoergezicht te coderen, en plaatsen we de gezichtsrepresentatie vervolgens in een ruimte met een bewerkbare prior, die is opgebouwd uit namen van beroemdheden. Door de identiteitsprior en bewerkbaarheidsprior te integreren, kan de geleerde identiteit overal worden geïnjecteerd in verschillende contexten. Daarnaast ontwerpen we een gemaskeerd tweefasig diffusieverlies om de pixelperceptie van het invoergezicht te versterken en de diversiteit van de generatie te behouden. Uitgebreide experimenten tonen aan dat onze methode eerdere aanpassingsmethoden overtreft. Bovendien kan de geleerde identiteit flexibel worden gecombineerd met kant-en-klare modules zoals ControlNet. Opmerkelijk is dat wij, voor zover bekend, de eersten zijn die de identiteit die uit een enkele afbeelding is geleerd, direct injecteren in video-/3D-generatie zonder fine-tuning. Wij geloven dat het voorgestelde StableIdentity een belangrijke stap is om aangepaste generatiemodellen voor afbeeldingen, video's en 3D te verenigen.
English
Recent advances in large pretrained text-to-image models have shown
unprecedented capabilities for high-quality human-centric generation, however,
customizing face identity is still an intractable problem. Existing methods
cannot ensure stable identity preservation and flexible editability, even with
several images for each subject during training. In this work, we propose
StableIdentity, which allows identity-consistent recontextualization with just
one face image. More specifically, we employ a face encoder with an identity
prior to encode the input face, and then land the face representation into a
space with an editable prior, which is constructed from celeb names. By
incorporating identity prior and editability prior, the learned identity can be
injected anywhere with various contexts. In addition, we design a masked
two-phase diffusion loss to boost the pixel-level perception of the input face
and maintain the diversity of generation. Extensive experiments demonstrate our
method outperforms previous customization methods. In addition, the learned
identity can be flexibly combined with the off-the-shelf modules such as
ControlNet. Notably, to the best knowledge, we are the first to directly inject
the identity learned from a single image into video/3D generation without
finetuning. We believe that the proposed StableIdentity is an important step to
unify image, video, and 3D customized generation models.