Imagínate a ti mismo: Generación de Imágenes Personalizadas sin Ajustes.Imagine yourself: Tuning-Free Personalized Image Generation
Los modelos de difusión han demostrado una eficacia notable en diversas tareas de imagen a imagen. En esta investigación, presentamos Imagine yourself, un modelo de vanguardia diseñado para la generación personalizada de imágenes. A diferencia de las técnicas convencionales de personalización basadas en ajustes, Imagine yourself opera como un modelo sin ajustes, permitiendo que todos los usuarios aprovechen un marco compartido sin ajustes individualizados. Además, trabajos anteriores se enfrentaron a desafíos para equilibrar la preservación de la identidad, seguir instrucciones complejas y preservar una buena calidad visual, lo que resultó en modelos con un fuerte efecto de copiar y pegar de las imágenes de referencia. Por lo tanto, apenas pueden generar imágenes siguiendo instrucciones que requieran cambios significativos en la imagen de referencia, como cambiar la expresión facial, las poses de la cabeza y el cuerpo, y la diversidad de las imágenes generadas es baja. Para abordar estas limitaciones, nuestro método propuesto introduce 1) un nuevo mecanismo de generación de datos emparejados sintéticos para fomentar la diversidad de imágenes, 2) una arquitectura de atención completamente paralela con tres codificadores de texto y un codificador de visión completamente entrenable para mejorar la fidelidad del texto, y 3) una novedosa metodología de ajuste fino en múltiples etapas de grueso a fino que empuja gradualmente los límites de la calidad visual. Nuestro estudio demuestra que Imagine yourself supera al modelo de personalización de vanguardia, mostrando capacidades superiores en la preservación de la identidad, calidad visual y alineación del texto. Este modelo establece una base sólida para diversas aplicaciones de personalización. Los resultados de la evaluación humana validan la superioridad SOTA del modelo en todos los aspectos (preservación de la identidad, fidelidad del texto y atractivo visual) en comparación con los modelos de personalización anteriores.