Imagínate a ti mismo: Generación de Imágenes Personalizadas sin Ajustes.

Resumen

Los modelos de difusión han demostrado una eficacia notable en diversas tareas de imagen a imagen. En esta investigación, presentamos Imagine yourself, un modelo de vanguardia diseñado para la generación personalizada de imágenes. A diferencia de las técnicas convencionales de personalización basadas en ajustes, Imagine yourself opera como un modelo sin ajustes, permitiendo que todos los usuarios aprovechen un marco compartido sin ajustes individualizados. Además, trabajos anteriores se enfrentaron a desafíos para equilibrar la preservación de la identidad, seguir instrucciones complejas y preservar una buena calidad visual, lo que resultó en modelos con un fuerte efecto de copiar y pegar de las imágenes de referencia. Por lo tanto, apenas pueden generar imágenes siguiendo instrucciones que requieran cambios significativos en la imagen de referencia, como cambiar la expresión facial, las poses de la cabeza y el cuerpo, y la diversidad de las imágenes generadas es baja. Para abordar estas limitaciones, nuestro método propuesto introduce 1) un nuevo mecanismo de generación de datos emparejados sintéticos para fomentar la diversidad de imágenes, 2) una arquitectura de atención completamente paralela con tres codificadores de texto y un codificador de visión completamente entrenable para mejorar la fidelidad del texto, y 3) una novedosa metodología de ajuste fino en múltiples etapas de grueso a fino que empuja gradualmente los límites de la calidad visual. Nuestro estudio demuestra que Imagine yourself supera al modelo de personalización de vanguardia, mostrando capacidades superiores en la preservación de la identidad, calidad visual y alineación del texto. Este modelo establece una base sólida para diversas aplicaciones de personalización. Los resultados de la evaluación humana validan la superioridad SOTA del modelo en todos los aspectos (preservación de la identidad, fidelidad del texto y atractivo visual) en comparación con los modelos de personalización anteriores.

English

Diffusion models have demonstrated remarkable efficacy across various image-to-image tasks. In this research, we introduce Imagine yourself, a state-of-the-art model designed for personalized image generation. Unlike conventional tuning-based personalization techniques, Imagine yourself operates as a tuning-free model, enabling all users to leverage a shared framework without individualized adjustments. Moreover, previous work met challenges balancing identity preservation, following complex prompts and preserving good visual quality, resulting in models having strong copy-paste effect of the reference images. Thus, they can hardly generate images following prompts that require significant changes to the reference image, \eg, changing facial expression, head and body poses, and the diversity of the generated images is low. To address these limitations, our proposed method introduces 1) a new synthetic paired data generation mechanism to encourage image diversity, 2) a fully parallel attention architecture with three text encoders and a fully trainable vision encoder to improve the text faithfulness, and 3) a novel coarse-to-fine multi-stage finetuning methodology that gradually pushes the boundary of visual quality. Our study demonstrates that Imagine yourself surpasses the state-of-the-art personalization model, exhibiting superior capabilities in identity preservation, visual quality, and text alignment. This model establishes a robust foundation for various personalization applications. Human evaluation results validate the model's SOTA superiority across all aspects (identity preservation, text faithfulness, and visual appeal) compared to the previous personalization models.