FaceStudio: Pon tu rostro en todas partes en segundos
FaceStudio: Put Your Face Everywhere in Seconds
December 5, 2023
Autores: Yuxuan Yan, Chi Zhang, Rui Wang, Pei Cheng, Gang Yu, Bin Fu
cs.AI
Resumen
Este estudio investiga la síntesis de imágenes que preservan la identidad, una tarea fascinante en la generación de imágenes que busca mantener la identidad de un sujeto mientras añade un toque personalizado y estilístico. Métodos tradicionales, como Textual Inversion y DreamBooth, han logrado avances en la creación de imágenes personalizadas, pero presentan inconvenientes significativos. Estos incluyen la necesidad de recursos y tiempo extensos para el ajuste fino, así como el requisito de múltiples imágenes de referencia. Para superar estos desafíos, nuestra investigación introduce un enfoque novedoso para la síntesis que preserva la identidad, con un enfoque particular en imágenes humanas. Nuestro modelo aprovecha un mecanismo de alimentación directa, evitando la necesidad de un ajuste fino intensivo, lo que facilita una generación de imágenes rápida y eficiente. Central a nuestra innovación es un marco de guía híbrido, que combina imágenes estilizadas, imágenes faciales y indicaciones textuales para guiar el proceso de generación de imágenes. Esta combinación única permite a nuestro modelo producir una variedad de aplicaciones, como retratos artísticos e imágenes con identidad mezclada. Nuestros resultados experimentales, que incluyen evaluaciones cualitativas y cuantitativas, demuestran la superioridad de nuestro método sobre los modelos de referencia existentes y trabajos previos, particularmente en su notable eficiencia y capacidad para preservar la identidad del sujeto con alta fidelidad.
English
This study investigates identity-preserving image synthesis, an intriguing
task in image generation that seeks to maintain a subject's identity while
adding a personalized, stylistic touch. Traditional methods, such as Textual
Inversion and DreamBooth, have made strides in custom image creation, but they
come with significant drawbacks. These include the need for extensive resources
and time for fine-tuning, as well as the requirement for multiple reference
images. To overcome these challenges, our research introduces a novel approach
to identity-preserving synthesis, with a particular focus on human images. Our
model leverages a direct feed-forward mechanism, circumventing the need for
intensive fine-tuning, thereby facilitating quick and efficient image
generation. Central to our innovation is a hybrid guidance framework, which
combines stylized images, facial images, and textual prompts to guide the image
generation process. This unique combination enables our model to produce a
variety of applications, such as artistic portraits and identity-blended
images. Our experimental results, including both qualitative and quantitative
evaluations, demonstrate the superiority of our method over existing baseline
models and previous works, particularly in its remarkable efficiency and
ability to preserve the subject's identity with high fidelity.