StableIdentity: Jeden in alles an jedem Ort auf den ersten Blick einfügen
StableIdentity: Inserting Anybody into Anywhere at First Sight
January 29, 2024
Autoren: Qinghe Wang, Xu Jia, Xiaomin Li, Taiqing Li, Liqian Ma, Yunzhi Zhuge, Huchuan Lu
cs.AI
Zusammenfassung
Jüngste Fortschritte bei großen vortrainierten Text-zu-Bild-Modellen haben beispiellose Fähigkeiten für hochwertige, menschenzentrierte Generierung gezeigt. Dennoch bleibt die Anpassung der Gesichtsidentität ein schwer lösbares Problem. Bestehende Methoden können keine stabile Identitätsbewahrung und flexible Bearbeitbarkeit gewährleisten, selbst wenn mehrere Bilder pro Person während des Trainings verwendet werden. In dieser Arbeit schlagen wir StableIdentity vor, das eine identitätskonsistente Rekontextualisierung mit nur einem Gesichtsbild ermöglicht. Genauer gesetzt verwenden wir einen Gesichtsencoder mit einem Identitäts-Prior, um das Eingabegesicht zu kodieren, und platzieren dann die Gesichtsrepräsentation in einem Raum mit einem bearbeitbaren Prior, der aus Prominentennamen konstruiert wird. Durch die Einbindung von Identitäts-Prior und Bearbeitbarkeits-Prior kann die gelernte Identität an beliebiger Stelle mit verschiedenen Kontexten injiziert werden. Zusätzlich entwerfen wir einen maskierten zweiphasigen Diffusionsverlust, um die pixelgenaue Wahrnehmung des Eingabegesichts zu verbessern und die Vielfalt der Generierung zu erhalten. Umfangreiche Experimente zeigen, dass unsere Methode bisherige Anpassungsmethoden übertrifft. Darüber hinaus kann die gelernte Identität flexibel mit verfügbaren Modulen wie ControlNet kombiniert werden. Bemerkenswerterweise sind wir, soweit bekannt, die ersten, die die aus einem einzelnen Bild gelernte Identität direkt in die Video-/3D-Generierung injizieren, ohne Feinabstimmung. Wir glauben, dass das vorgeschlagene StableIdentity ein wichtiger Schritt ist, um angepasste Generierungsmodelle für Bilder, Videos und 3D zu vereinheitlichen.
English
Recent advances in large pretrained text-to-image models have shown
unprecedented capabilities for high-quality human-centric generation, however,
customizing face identity is still an intractable problem. Existing methods
cannot ensure stable identity preservation and flexible editability, even with
several images for each subject during training. In this work, we propose
StableIdentity, which allows identity-consistent recontextualization with just
one face image. More specifically, we employ a face encoder with an identity
prior to encode the input face, and then land the face representation into a
space with an editable prior, which is constructed from celeb names. By
incorporating identity prior and editability prior, the learned identity can be
injected anywhere with various contexts. In addition, we design a masked
two-phase diffusion loss to boost the pixel-level perception of the input face
and maintain the diversity of generation. Extensive experiments demonstrate our
method outperforms previous customization methods. In addition, the learned
identity can be flexibly combined with the off-the-shelf modules such as
ControlNet. Notably, to the best knowledge, we are the first to directly inject
the identity learned from a single image into video/3D generation without
finetuning. We believe that the proposed StableIdentity is an important step to
unify image, video, and 3D customized generation models.