ChatPaper.aiChatPaper

FaceStudio: Coloque Seu Rosto em Qualquer Lugar em Segundos

FaceStudio: Put Your Face Everywhere in Seconds

December 5, 2023
Autores: Yuxuan Yan, Chi Zhang, Rui Wang, Pei Cheng, Gang Yu, Bin Fu
cs.AI

Resumo

Este estudo investiga a síntese de imagens com preservação de identidade, uma tarefa intrigante na geração de imagens que busca manter a identidade de um sujeito enquanto adiciona um toque personalizado e estilizado. Métodos tradicionais, como Inversão Textual e DreamBooth, avançaram na criação de imagens personalizadas, mas apresentam desvantagens significativas. Essas incluem a necessidade de recursos e tempo extensos para ajuste fino, além da exigência de múltiplas imagens de referência. Para superar esses desafios, nossa pesquisa introduz uma abordagem inovadora para síntese com preservação de identidade, com foco particular em imagens humanas. Nosso modelo utiliza um mecanismo de alimentação direta, contornando a necessidade de ajuste fino intensivo, facilitando assim a geração rápida e eficiente de imagens. Central para nossa inovação é uma estrutura de orientação híbrida, que combina imagens estilizadas, imagens faciais e prompts textuais para guiar o processo de geração de imagens. Essa combinação única permite que nosso modelo produza uma variedade de aplicações, como retratos artísticos e imagens com identidade mesclada. Nossos resultados experimentais, incluindo avaliações qualitativas e quantitativas, demonstram a superioridade de nosso método em relação aos modelos de referência existentes e trabalhos anteriores, destacando-se especialmente por sua eficiência notável e capacidade de preservar a identidade do sujeito com alta fidelidade.
English
This study investigates identity-preserving image synthesis, an intriguing task in image generation that seeks to maintain a subject's identity while adding a personalized, stylistic touch. Traditional methods, such as Textual Inversion and DreamBooth, have made strides in custom image creation, but they come with significant drawbacks. These include the need for extensive resources and time for fine-tuning, as well as the requirement for multiple reference images. To overcome these challenges, our research introduces a novel approach to identity-preserving synthesis, with a particular focus on human images. Our model leverages a direct feed-forward mechanism, circumventing the need for intensive fine-tuning, thereby facilitating quick and efficient image generation. Central to our innovation is a hybrid guidance framework, which combines stylized images, facial images, and textual prompts to guide the image generation process. This unique combination enables our model to produce a variety of applications, such as artistic portraits and identity-blended images. Our experimental results, including both qualitative and quantitative evaluations, demonstrate the superiority of our method over existing baseline models and previous works, particularly in its remarkable efficiency and ability to preserve the subject's identity with high fidelity.
PDF331December 15, 2024