RAPHAEL: Geração de Texto para Imagem via Grande Mistura de Caminhos de Difusão
RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths
May 29, 2023
Autores: Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, Ping Luo
cs.AI
Resumo
A geração de imagens a partir de texto tem testemunhado conquistas notáveis recentemente. Apresentamos um modelo de difusão de imagens condicionado por texto, denominado RAPHAEL, para gerar imagens altamente artísticas que retratam com precisão os prompts textuais, abrangendo múltiplos substantivos, adjetivos e verbos. Isso é alcançado empilhando dezenas de camadas de mistura de especialistas (MoEs), ou seja, camadas space-MoE e time-MoE, permitindo bilhões de caminhos (rotas) de difusão desde a entrada até a saída da rede. Cada caminho funciona intuitivamente como um "pintor" para representar um conceito textual específico em uma região da imagem em um passo de difusão. Experimentos abrangentes revelam que o RAPHAEL supera modelos recentes de ponta, como Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd e DALL-E 2, tanto em qualidade de imagem quanto em apelo estético. Primeiramente, o RAPHAEL demonstra desempenho superior na alternância de imagens entre diversos estilos, como quadrinhos japoneses, realismo, cyberpunk e ilustração em tinta. Em segundo lugar, um único modelo com três bilhões de parâmetros, treinado em 1.000 GPUs A100 por dois meses, alcança um estado da arte no score FID zero-shot de 6.61 no conjunto de dados COCO. Além disso, o RAPHAEL supera significativamente seus concorrentes na avaliação humana no benchmark ViLG-300. Acreditamos que o RAPHAEL tem o potencial de impulsionar as fronteiras da pesquisa em geração de imagens tanto na academia quanto na indústria, pavimentando o caminho para futuros avanços neste campo em rápida evolução. Mais detalhes podem ser encontrados na página do projeto: https://raphael-painter.github.io/.
English
Text-to-image generation has recently witnessed remarkable achievements. We
introduce a text-conditional image diffusion model, termed RAPHAEL, to generate
highly artistic images, which accurately portray the text prompts, encompassing
multiple nouns, adjectives, and verbs. This is achieved by stacking tens of
mixture-of-experts (MoEs) layers, i.e., space-MoE and time-MoE layers, enabling
billions of diffusion paths (routes) from the network input to the output. Each
path intuitively functions as a "painter" for depicting a particular textual
concept onto a specified image region at a diffusion timestep. Comprehensive
experiments reveal that RAPHAEL outperforms recent cutting-edge models, such as
Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd, and DALL-E 2, in terms of both
image quality and aesthetic appeal. Firstly, RAPHAEL exhibits superior
performance in switching images across diverse styles, such as Japanese comics,
realism, cyberpunk, and ink illustration. Secondly, a single model with three
billion parameters, trained on 1,000 A100 GPUs for two months, achieves a
state-of-the-art zero-shot FID score of 6.61 on the COCO dataset. Furthermore,
RAPHAEL significantly surpasses its counterparts in human evaluation on the
ViLG-300 benchmark. We believe that RAPHAEL holds the potential to propel the
frontiers of image generation research in both academia and industry, paving
the way for future breakthroughs in this rapidly evolving field. More details
can be found on a project webpage: https://raphael-painter.github.io/.