RAPHAEL : Génération d'images à partir de texte via un large mélange de chemins de diffusion
RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths
May 29, 2023
Auteurs: Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, Ping Luo
cs.AI
Résumé
La génération d'images à partir de texte a récemment enregistré des avancées remarquables. Nous présentons un modèle de diffusion d'images conditionné par le texte, nommé RAPHAEL, capable de générer des images hautement artistiques qui représentent fidèlement les descriptions textuelles, incluant plusieurs noms, adjectifs et verbes. Ce résultat est obtenu en empilant des dizaines de couches de mélange d'experts (MoEs), à savoir des couches space-MoE et time-MoE, permettant ainsi des milliards de chemins de diffusion (routes) depuis l'entrée jusqu'à la sortie du réseau. Chaque chemin fonctionne intuitivement comme un « peintre » pour représenter un concept textuel spécifique sur une région d'image donnée à une étape de diffusion. Des expériences approfondies révèlent que RAPHAEL surpasse les modèles récents de pointe, tels que Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd et DALL-E 2, en termes de qualité d'image et d'attrait esthétique. Premièrement, RAPHAEL démontre une performance supérieure dans la transition d'images entre divers styles, tels que les bandes dessinées japonaises, le réalisme, le cyberpunk et l'illustration à l'encre. Deuxièmement, un modèle unique avec trois milliards de paramètres, entraîné sur 1 000 GPU A100 pendant deux mois, atteint un score FID zero-shot de pointe de 6,61 sur le jeu de données COCO. De plus, RAPHAEL surpasse significativement ses concurrents dans les évaluations humaines sur le benchmark ViLG-300. Nous croyons que RAPHAEL a le potentiel de repousser les frontières de la recherche en génération d'images, tant dans le milieu académique que dans l'industrie, ouvrant la voie à de futures percées dans ce domaine en évolution rapide. Plus de détails sont disponibles sur la page web du projet : https://raphael-painter.github.io/.
English
Text-to-image generation has recently witnessed remarkable achievements. We
introduce a text-conditional image diffusion model, termed RAPHAEL, to generate
highly artistic images, which accurately portray the text prompts, encompassing
multiple nouns, adjectives, and verbs. This is achieved by stacking tens of
mixture-of-experts (MoEs) layers, i.e., space-MoE and time-MoE layers, enabling
billions of diffusion paths (routes) from the network input to the output. Each
path intuitively functions as a "painter" for depicting a particular textual
concept onto a specified image region at a diffusion timestep. Comprehensive
experiments reveal that RAPHAEL outperforms recent cutting-edge models, such as
Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd, and DALL-E 2, in terms of both
image quality and aesthetic appeal. Firstly, RAPHAEL exhibits superior
performance in switching images across diverse styles, such as Japanese comics,
realism, cyberpunk, and ink illustration. Secondly, a single model with three
billion parameters, trained on 1,000 A100 GPUs for two months, achieves a
state-of-the-art zero-shot FID score of 6.61 on the COCO dataset. Furthermore,
RAPHAEL significantly surpasses its counterparts in human evaluation on the
ViLG-300 benchmark. We believe that RAPHAEL holds the potential to propel the
frontiers of image generation research in both academia and industry, paving
the way for future breakthroughs in this rapidly evolving field. More details
can be found on a project webpage: https://raphael-painter.github.io/.