Emu: Aprimorando Modelos de Geração de Imagens Utilizando Agulhas Fotogênicas em um Palheiro
Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack
September 27, 2023
Autores: Xiaoliang Dai, Ji Hou, Chih-Yao Ma, Sam Tsai, Jialiang Wang, Rui Wang, Peizhao Zhang, Simon Vandenhende, Xiaofang Wang, Abhimanyu Dubey, Matthew Yu, Abhishek Kadian, Filip Radenovic, Dhruv Mahajan, Kunpeng Li, Yue Zhao, Vladan Petrovic, Mitesh Kumar Singh, Simran Motwani, Yi Wen, Yiwen Song, Roshan Sumbaly, Vignesh Ramanathan, Zijian He, Peter Vajda, Devi Parikh
cs.AI
Resumo
O treinamento de modelos de texto para imagem com pares de imagem-texto em escala da web permite a geração de uma ampla gama de conceitos visuais a partir de texto. No entanto, esses modelos pré-treinados frequentemente enfrentam desafios quando se trata de gerar imagens altamente estéticas. Isso cria a necessidade de alinhamento estético após o pré-treinamento. Neste artigo, propomos o ajuste de qualidade para orientar efetivamente um modelo pré-treinado a gerar exclusivamente imagens visualmente atraentes, mantendo a generalidade entre os conceitos visuais. Nossa principal percepção é que o ajuste fino supervisionado com um conjunto surpreendentemente pequeno, mas extremamente visualmente atraente de imagens, pode melhorar significativamente a qualidade da geração. Pré-treinamos um modelo de difusão latente em 1,1 bilhão de pares de imagem-texto e o ajustamos com apenas alguns milhares de imagens de alta qualidade cuidadosamente selecionadas. O modelo resultante, Emu, alcança uma taxa de vitória de 82,9% em comparação com sua contraparte apenas pré-treinada. Comparado ao estado da arte SDXLv1.0, o Emu é preferido 68,4% e 71,3% das vezes em apelo visual nos benchmarks padrão PartiPrompts e nosso Open User Input, baseado no uso real de modelos de texto para imagem. Além disso, mostramos que o ajuste de qualidade é uma abordagem genérica que também é eficaz para outras arquiteturas, incluindo modelos de difusão de pixels e transformadores generativos mascarados.
English
Training text-to-image models with web scale image-text pairs enables the
generation of a wide range of visual concepts from text. However, these
pre-trained models often face challenges when it comes to generating highly
aesthetic images. This creates the need for aesthetic alignment post
pre-training. In this paper, we propose quality-tuning to effectively guide a
pre-trained model to exclusively generate highly visually appealing images,
while maintaining generality across visual concepts. Our key insight is that
supervised fine-tuning with a set of surprisingly small but extremely visually
appealing images can significantly improve the generation quality. We pre-train
a latent diffusion model on 1.1 billion image-text pairs and fine-tune it
with only a few thousand carefully selected high-quality images. The resulting
model, Emu, achieves a win rate of 82.9% compared with its pre-trained only
counterpart. Compared to the state-of-the-art SDXLv1.0, Emu is preferred
68.4% and 71.3% of the time on visual appeal on the standard PartiPrompts
and our Open User Input benchmark based on the real-world usage of
text-to-image models. In addition, we show that quality-tuning is a generic
approach that is also effective for other architectures, including pixel
diffusion and masked generative transformer models.