ChatPaper.aiChatPaper

PhotoVerse: Personalização de Imagens sem Ajustes com Modelos de Difusão Texto-para-Imagem

PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models

September 11, 2023
Autores: Li Chen, Mengyi Zhao, Yiheng Liu, Mingxu Ding, Yangyang Song, Shizun Wang, Xu Wang, Hao Yang, Jing Liu, Kang Du, Min Zheng
cs.AI

Resumo

A geração personalizada de imagens a partir de texto emergiu como uma ferramenta poderosa e altamente desejada, capacitando os usuários a criar imagens personalizadas com base em seus conceitos e prompts específicos. No entanto, as abordagens existentes para personalização enfrentam múltiplos desafios, incluindo tempos longos de ajuste, grandes requisitos de armazenamento, a necessidade de múltiplas imagens de entrada por identidade e limitações na preservação da identidade e na editabilidade. Para superar esses obstáculos, apresentamos o PhotoVerse, uma metodologia inovadora que incorpora um mecanismo de condicionamento de duplo ramo nos domínios de texto e imagem, proporcionando controle eficaz sobre o processo de geração de imagens. Além disso, introduzimos a perda de identidade facial como um componente novo para aprimorar a preservação da identidade durante o treinamento. Notavelmente, o PhotoVerse proposto elimina a necessidade de ajuste durante o teste e depende apenas de uma única foto facial da identidade alvo, reduzindo significativamente o custo de recursos associado à geração de imagens. Após uma única fase de treinamento, nossa abordagem permite gerar imagens de alta qualidade em apenas alguns segundos. Além disso, nosso método pode produzir imagens diversas que abrangem várias cenas e estilos. A avaliação extensiva demonstra o desempenho superior de nossa abordagem, que alcança os objetivos duplos de preservar a identidade e facilitar a editabilidade. Página do projeto: https://photoverse2d.github.io/
English
Personalized text-to-image generation has emerged as a powerful and sought-after tool, empowering users to create customized images based on their specific concepts and prompts. However, existing approaches to personalization encounter multiple challenges, including long tuning times, large storage requirements, the necessity for multiple input images per identity, and limitations in preserving identity and editability. To address these obstacles, we present PhotoVerse, an innovative methodology that incorporates a dual-branch conditioning mechanism in both text and image domains, providing effective control over the image generation process. Furthermore, we introduce facial identity loss as a novel component to enhance the preservation of identity during training. Remarkably, our proposed PhotoVerse eliminates the need for test time tuning and relies solely on a single facial photo of the target identity, significantly reducing the resource cost associated with image generation. After a single training phase, our approach enables generating high-quality images within only a few seconds. Moreover, our method can produce diverse images that encompass various scenes and styles. The extensive evaluation demonstrates the superior performance of our approach, which achieves the dual objectives of preserving identity and facilitating editability. Project page: https://photoverse2d.github.io/
PDF506December 15, 2024