ChatPaper.aiChatPaper

StableIdentity: Jeden in alles an jedem Ort auf den ersten Blick einfügen

StableIdentity: Inserting Anybody into Anywhere at First Sight

January 29, 2024
Autoren: Qinghe Wang, Xu Jia, Xiaomin Li, Taiqing Li, Liqian Ma, Yunzhi Zhuge, Huchuan Lu
cs.AI

Zusammenfassung

Jüngste Fortschritte bei großen vortrainierten Text-zu-Bild-Modellen haben beispiellose Fähigkeiten für hochwertige, menschenzentrierte Generierung gezeigt. Dennoch bleibt die Anpassung der Gesichtsidentität ein schwer lösbares Problem. Bestehende Methoden können keine stabile Identitätsbewahrung und flexible Bearbeitbarkeit gewährleisten, selbst wenn mehrere Bilder pro Person während des Trainings verwendet werden. In dieser Arbeit schlagen wir StableIdentity vor, das eine identitätskonsistente Rekontextualisierung mit nur einem Gesichtsbild ermöglicht. Genauer gesetzt verwenden wir einen Gesichtsencoder mit einem Identitäts-Prior, um das Eingabegesicht zu kodieren, und platzieren dann die Gesichtsrepräsentation in einem Raum mit einem bearbeitbaren Prior, der aus Prominentennamen konstruiert wird. Durch die Einbindung von Identitäts-Prior und Bearbeitbarkeits-Prior kann die gelernte Identität an beliebiger Stelle mit verschiedenen Kontexten injiziert werden. Zusätzlich entwerfen wir einen maskierten zweiphasigen Diffusionsverlust, um die pixelgenaue Wahrnehmung des Eingabegesichts zu verbessern und die Vielfalt der Generierung zu erhalten. Umfangreiche Experimente zeigen, dass unsere Methode bisherige Anpassungsmethoden übertrifft. Darüber hinaus kann die gelernte Identität flexibel mit verfügbaren Modulen wie ControlNet kombiniert werden. Bemerkenswerterweise sind wir, soweit bekannt, die ersten, die die aus einem einzelnen Bild gelernte Identität direkt in die Video-/3D-Generierung injizieren, ohne Feinabstimmung. Wir glauben, dass das vorgeschlagene StableIdentity ein wichtiger Schritt ist, um angepasste Generierungsmodelle für Bilder, Videos und 3D zu vereinheitlichen.
English
Recent advances in large pretrained text-to-image models have shown unprecedented capabilities for high-quality human-centric generation, however, customizing face identity is still an intractable problem. Existing methods cannot ensure stable identity preservation and flexible editability, even with several images for each subject during training. In this work, we propose StableIdentity, which allows identity-consistent recontextualization with just one face image. More specifically, we employ a face encoder with an identity prior to encode the input face, and then land the face representation into a space with an editable prior, which is constructed from celeb names. By incorporating identity prior and editability prior, the learned identity can be injected anywhere with various contexts. In addition, we design a masked two-phase diffusion loss to boost the pixel-level perception of the input face and maintain the diversity of generation. Extensive experiments demonstrate our method outperforms previous customization methods. In addition, the learned identity can be flexibly combined with the off-the-shelf modules such as ControlNet. Notably, to the best knowledge, we are the first to directly inject the identity learned from a single image into video/3D generation without finetuning. We believe that the proposed StableIdentity is an important step to unify image, video, and 3D customized generation models.
PDF192December 15, 2024