ChatPaper.aiChatPaper

Emu: Mejora de modelos de generación de imágenes utilizando agujas fotogénicas en un pajar

Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack

September 27, 2023
Autores: Xiaoliang Dai, Ji Hou, Chih-Yao Ma, Sam Tsai, Jialiang Wang, Rui Wang, Peizhao Zhang, Simon Vandenhende, Xiaofang Wang, Abhimanyu Dubey, Matthew Yu, Abhishek Kadian, Filip Radenovic, Dhruv Mahajan, Kunpeng Li, Yue Zhao, Vladan Petrovic, Mitesh Kumar Singh, Simran Motwani, Yi Wen, Yiwen Song, Roshan Sumbaly, Vignesh Ramanathan, Zijian He, Peter Vajda, Devi Parikh
cs.AI

Resumen

El entrenamiento de modelos de texto a imagen con pares de imagen-texto a escala web permite la generación de una amplia gama de conceptos visuales a partir de texto. Sin embargo, estos modelos preentrenados a menudo enfrentan desafíos cuando se trata de generar imágenes altamente estéticas. Esto crea la necesidad de una alineación estética posterior al preentrenamiento. En este artículo, proponemos el ajuste de calidad para guiar eficazmente a un modelo preentrenado a generar exclusivamente imágenes visualmente atractivas, manteniendo la generalidad en los conceptos visuales. Nuestra idea clave es que el ajuste fino supervisado con un conjunto sorprendentemente pequeño pero extremadamente visualmente atractivo de imágenes puede mejorar significativamente la calidad de la generación. Preentrenamos un modelo de difusión latente en 1.1 mil millones de pares de imagen-texto y lo ajustamos con solo unos pocos miles de imágenes de alta calidad cuidadosamente seleccionadas. El modelo resultante, Emu, logra una tasa de victoria del 82.9% en comparación con su contraparte solo preentrenada. En comparación con el estado del arte SDXLv1.0, Emu es preferido el 68.4% y el 71.3% de las veces en atractivo visual en los estándares PartiPrompts y nuestro benchmark Open User Input basado en el uso en el mundo real de modelos de texto a imagen. Además, mostramos que el ajuste de calidad es un enfoque genérico que también es efectivo para otras arquitecturas, incluyendo modelos de difusión de píxeles y modelos de transformadores generativos enmascarados.
English
Training text-to-image models with web scale image-text pairs enables the generation of a wide range of visual concepts from text. However, these pre-trained models often face challenges when it comes to generating highly aesthetic images. This creates the need for aesthetic alignment post pre-training. In this paper, we propose quality-tuning to effectively guide a pre-trained model to exclusively generate highly visually appealing images, while maintaining generality across visual concepts. Our key insight is that supervised fine-tuning with a set of surprisingly small but extremely visually appealing images can significantly improve the generation quality. We pre-train a latent diffusion model on 1.1 billion image-text pairs and fine-tune it with only a few thousand carefully selected high-quality images. The resulting model, Emu, achieves a win rate of 82.9% compared with its pre-trained only counterpart. Compared to the state-of-the-art SDXLv1.0, Emu is preferred 68.4% and 71.3% of the time on visual appeal on the standard PartiPrompts and our Open User Input benchmark based on the real-world usage of text-to-image models. In addition, we show that quality-tuning is a generic approach that is also effective for other architectures, including pixel diffusion and masked generative transformer models.
PDF329December 15, 2024