PhotoVerse: Personalización de imágenes sin ajustes con modelos de difusión de texto a imagen
PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models
September 11, 2023
Autores: Li Chen, Mengyi Zhao, Yiheng Liu, Mingxu Ding, Yangyang Song, Shizun Wang, Xu Wang, Hao Yang, Jing Liu, Kang Du, Min Zheng
cs.AI
Resumen
La generación personalizada de imágenes a partir de texto ha surgido como una herramienta poderosa y muy demandada, permitiendo a los usuarios crear imágenes personalizadas basadas en sus conceptos y descripciones específicas. Sin embargo, los enfoques existentes para la personalización enfrentan múltiples desafíos, incluyendo tiempos de ajuste prolongados, grandes requisitos de almacenamiento, la necesidad de múltiples imágenes de entrada por identidad y limitaciones en la preservación de la identidad y la capacidad de edición. Para abordar estos obstáculos, presentamos PhotoVerse, una metodología innovadora que incorpora un mecanismo de condicionamiento de doble rama en los dominios de texto e imagen, proporcionando un control efectivo sobre el proceso de generación de imágenes. Además, introducimos la pérdida de identidad facial como un componente novedoso para mejorar la preservación de la identidad durante el entrenamiento. Notablemente, nuestro PhotoVerse propuesto elimina la necesidad de ajustes en tiempo de prueba y depende únicamente de una sola foto facial de la identidad objetivo, reduciendo significativamente el costo de recursos asociado con la generación de imágenes. Después de una única fase de entrenamiento, nuestro enfoque permite generar imágenes de alta calidad en solo unos segundos. Además, nuestro método puede producir imágenes diversas que abarcan varias escenas y estilos. La evaluación exhaustiva demuestra el rendimiento superior de nuestro enfoque, que logra los objetivos duales de preservar la identidad y facilitar la edición. Página del proyecto: https://photoverse2d.github.io/
English
Personalized text-to-image generation has emerged as a powerful and
sought-after tool, empowering users to create customized images based on their
specific concepts and prompts. However, existing approaches to personalization
encounter multiple challenges, including long tuning times, large storage
requirements, the necessity for multiple input images per identity, and
limitations in preserving identity and editability. To address these obstacles,
we present PhotoVerse, an innovative methodology that incorporates a
dual-branch conditioning mechanism in both text and image domains, providing
effective control over the image generation process. Furthermore, we introduce
facial identity loss as a novel component to enhance the preservation of
identity during training. Remarkably, our proposed PhotoVerse eliminates the
need for test time tuning and relies solely on a single facial photo of the
target identity, significantly reducing the resource cost associated with image
generation. After a single training phase, our approach enables generating
high-quality images within only a few seconds. Moreover, our method can produce
diverse images that encompass various scenes and styles. The extensive
evaluation demonstrates the superior performance of our approach, which
achieves the dual objectives of preserving identity and facilitating
editability. Project page: https://photoverse2d.github.io/