StableIdentity: Insertar a cualquiera en cualquier lugar a primera vista
StableIdentity: Inserting Anybody into Anywhere at First Sight
January 29, 2024
Autores: Qinghe Wang, Xu Jia, Xiaomin Li, Taiqing Li, Liqian Ma, Yunzhi Zhuge, Huchuan Lu
cs.AI
Resumen
Los recientes avances en los grandes modelos preentrenados de texto a imagen han demostrado capacidades sin precedentes para la generación de alta calidad centrada en humanos, sin embargo, la personalización de la identidad facial sigue siendo un problema intratable. Los métodos existentes no pueden garantizar una preservación estable de la identidad y una edición flexible, incluso con varias imágenes de cada sujeto durante el entrenamiento. En este trabajo, proponemos StableIdentity, que permite la recontextualización consistente en la identidad con solo una imagen facial. Más específicamente, empleamos un codificador facial con un previo de identidad para codificar la cara de entrada, y luego situamos la representación facial en un espacio con un previo editable, que se construye a partir de nombres de celebridades. Al incorporar el previo de identidad y el previo de editabilidad, la identidad aprendida puede inyectarse en cualquier lugar con diversos contextos. Además, diseñamos una pérdida de difusión enmascarada de dos fases para potenciar la percepción a nivel de píxel de la cara de entrada y mantener la diversidad de la generación. Experimentos extensivos demuestran que nuestro método supera a los métodos de personalización anteriores. Además, la identidad aprendida puede combinarse de manera flexible con módulos disponibles como ControlNet. Notablemente, hasta donde sabemos, somos los primeros en inyectar directamente la identidad aprendida de una sola imagen en la generación de video/3D sin ajuste fino. Creemos que el StableIdentity propuesto es un paso importante para unificar los modelos de generación personalizada de imágenes, videos y 3D.
English
Recent advances in large pretrained text-to-image models have shown
unprecedented capabilities for high-quality human-centric generation, however,
customizing face identity is still an intractable problem. Existing methods
cannot ensure stable identity preservation and flexible editability, even with
several images for each subject during training. In this work, we propose
StableIdentity, which allows identity-consistent recontextualization with just
one face image. More specifically, we employ a face encoder with an identity
prior to encode the input face, and then land the face representation into a
space with an editable prior, which is constructed from celeb names. By
incorporating identity prior and editability prior, the learned identity can be
injected anywhere with various contexts. In addition, we design a masked
two-phase diffusion loss to boost the pixel-level perception of the input face
and maintain the diversity of generation. Extensive experiments demonstrate our
method outperforms previous customization methods. In addition, the learned
identity can be flexibly combined with the off-the-shelf modules such as
ControlNet. Notably, to the best knowledge, we are the first to directly inject
the identity learned from a single image into video/3D generation without
finetuning. We believe that the proposed StableIdentity is an important step to
unify image, video, and 3D customized generation models.