Imagínate a ti mismo: Generación de Imágenes Personalizadas sin Ajustes.
Imagine yourself: Tuning-Free Personalized Image Generation
September 20, 2024
Autores: Zecheng He, Bo Sun, Felix Juefei-Xu, Haoyu Ma, Ankit Ramchandani, Vincent Cheung, Siddharth Shah, Anmol Kalia, Harihar Subramanyam, Alireza Zareian, Li Chen, Ankit Jain, Ning Zhang, Peizhao Zhang, Roshan Sumbaly, Peter Vajda, Animesh Sinha
cs.AI
Resumen
Los modelos de difusión han demostrado una eficacia notable en diversas tareas de imagen a imagen. En esta investigación, presentamos Imagine yourself, un modelo de vanguardia diseñado para la generación personalizada de imágenes. A diferencia de las técnicas convencionales de personalización basadas en ajustes, Imagine yourself opera como un modelo sin ajustes, permitiendo que todos los usuarios aprovechen un marco compartido sin ajustes individualizados. Además, trabajos anteriores se enfrentaron a desafíos para equilibrar la preservación de la identidad, seguir instrucciones complejas y preservar una buena calidad visual, lo que resultó en modelos con un fuerte efecto de copiar y pegar de las imágenes de referencia. Por lo tanto, apenas pueden generar imágenes siguiendo instrucciones que requieran cambios significativos en la imagen de referencia, como cambiar la expresión facial, las poses de la cabeza y el cuerpo, y la diversidad de las imágenes generadas es baja. Para abordar estas limitaciones, nuestro método propuesto introduce 1) un nuevo mecanismo de generación de datos emparejados sintéticos para fomentar la diversidad de imágenes, 2) una arquitectura de atención completamente paralela con tres codificadores de texto y un codificador de visión completamente entrenable para mejorar la fidelidad del texto, y 3) una novedosa metodología de ajuste fino en múltiples etapas de grueso a fino que empuja gradualmente los límites de la calidad visual. Nuestro estudio demuestra que Imagine yourself supera al modelo de personalización de vanguardia, mostrando capacidades superiores en la preservación de la identidad, calidad visual y alineación del texto. Este modelo establece una base sólida para diversas aplicaciones de personalización. Los resultados de la evaluación humana validan la superioridad SOTA del modelo en todos los aspectos (preservación de la identidad, fidelidad del texto y atractivo visual) en comparación con los modelos de personalización anteriores.
English
Diffusion models have demonstrated remarkable efficacy across various
image-to-image tasks. In this research, we introduce Imagine yourself, a
state-of-the-art model designed for personalized image generation. Unlike
conventional tuning-based personalization techniques, Imagine yourself operates
as a tuning-free model, enabling all users to leverage a shared framework
without individualized adjustments. Moreover, previous work met challenges
balancing identity preservation, following complex prompts and preserving good
visual quality, resulting in models having strong copy-paste effect of the
reference images. Thus, they can hardly generate images following prompts that
require significant changes to the reference image, \eg, changing facial
expression, head and body poses, and the diversity of the generated images is
low. To address these limitations, our proposed method introduces 1) a new
synthetic paired data generation mechanism to encourage image diversity, 2) a
fully parallel attention architecture with three text encoders and a fully
trainable vision encoder to improve the text faithfulness, and 3) a novel
coarse-to-fine multi-stage finetuning methodology that gradually pushes the
boundary of visual quality. Our study demonstrates that Imagine yourself
surpasses the state-of-the-art personalization model, exhibiting superior
capabilities in identity preservation, visual quality, and text alignment. This
model establishes a robust foundation for various personalization applications.
Human evaluation results validate the model's SOTA superiority across all
aspects (identity preservation, text faithfulness, and visual appeal) compared
to the previous personalization models.Summary
AI-Generated Summary