RAPHAEL: Generación de imágenes a partir de texto mediante una gran mezcla de trayectorias de difusión
RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths
May 29, 2023
Autores: Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, Ping Luo
cs.AI
Resumen
La generación de imágenes a partir de texto ha experimentado logros notables recientemente. Presentamos un modelo de difusión de imágenes condicionado por texto, denominado RAPHAEL, para generar imágenes altamente artísticas que representan con precisión las indicaciones textuales, abarcando múltiples sustantivos, adjetivos y verbos. Esto se logra mediante la disposición en capas de decenas de módulos de mezcla de expertos (MoE), es decir, capas de espacio-MoE y tiempo-MoE, lo que permite miles de millones de rutas de difusión desde la entrada hasta la salida de la red. Cada ruta funciona intuitivamente como un "pintor" que describe un concepto textual particular en una región específica de la imagen en un paso de tiempo de difusión. Experimentos exhaustivos revelan que RAPHAEL supera a modelos recientes de vanguardia, como Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd y DALL-E 2, tanto en calidad de imagen como en atractivo estético. En primer lugar, RAPHAEL muestra un rendimiento superior al cambiar imágenes entre diversos estilos, como cómics japoneses, realismo, cyberpunk e ilustración en tinta. En segundo lugar, un único modelo con tres mil millones de parámetros, entrenado en 1,000 GPUs A100 durante dos meses, alcanza un puntaje FID de cero-shot de 6.61 en el conjunto de datos COCO, estableciendo un nuevo estado del arte. Además, RAPHAEL supera significativamente a sus contrapartes en evaluaciones humanas en el benchmark ViLG-300. Creemos que RAPHAEL tiene el potencial de impulsar las fronteras de la investigación en generación de imágenes tanto en el ámbito académico como industrial, allanando el camino para futuros avances en este campo en rápida evolución. Más detalles pueden encontrarse en la página web del proyecto: https://raphael-painter.github.io/.
English
Text-to-image generation has recently witnessed remarkable achievements. We
introduce a text-conditional image diffusion model, termed RAPHAEL, to generate
highly artistic images, which accurately portray the text prompts, encompassing
multiple nouns, adjectives, and verbs. This is achieved by stacking tens of
mixture-of-experts (MoEs) layers, i.e., space-MoE and time-MoE layers, enabling
billions of diffusion paths (routes) from the network input to the output. Each
path intuitively functions as a "painter" for depicting a particular textual
concept onto a specified image region at a diffusion timestep. Comprehensive
experiments reveal that RAPHAEL outperforms recent cutting-edge models, such as
Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd, and DALL-E 2, in terms of both
image quality and aesthetic appeal. Firstly, RAPHAEL exhibits superior
performance in switching images across diverse styles, such as Japanese comics,
realism, cyberpunk, and ink illustration. Secondly, a single model with three
billion parameters, trained on 1,000 A100 GPUs for two months, achieves a
state-of-the-art zero-shot FID score of 6.61 on the COCO dataset. Furthermore,
RAPHAEL significantly surpasses its counterparts in human evaluation on the
ViLG-300 benchmark. We believe that RAPHAEL holds the potential to propel the
frontiers of image generation research in both academia and industry, paving
the way for future breakthroughs in this rapidly evolving field. More details
can be found on a project webpage: https://raphael-painter.github.io/.