ChatPaper.aiChatPaper

RAPHAEL : Génération d'images à partir de texte via un large mélange de chemins de diffusion

RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths

May 29, 2023
Auteurs: Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, Ping Luo
cs.AI

Résumé

La génération d'images à partir de texte a récemment enregistré des avancées remarquables. Nous présentons un modèle de diffusion d'images conditionné par le texte, nommé RAPHAEL, capable de générer des images hautement artistiques qui représentent fidèlement les descriptions textuelles, incluant plusieurs noms, adjectifs et verbes. Ce résultat est obtenu en empilant des dizaines de couches de mélange d'experts (MoEs), à savoir des couches space-MoE et time-MoE, permettant ainsi des milliards de chemins de diffusion (routes) depuis l'entrée jusqu'à la sortie du réseau. Chaque chemin fonctionne intuitivement comme un « peintre » pour représenter un concept textuel spécifique sur une région d'image donnée à une étape de diffusion. Des expériences approfondies révèlent que RAPHAEL surpasse les modèles récents de pointe, tels que Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd et DALL-E 2, en termes de qualité d'image et d'attrait esthétique. Premièrement, RAPHAEL démontre une performance supérieure dans la transition d'images entre divers styles, tels que les bandes dessinées japonaises, le réalisme, le cyberpunk et l'illustration à l'encre. Deuxièmement, un modèle unique avec trois milliards de paramètres, entraîné sur 1 000 GPU A100 pendant deux mois, atteint un score FID zero-shot de pointe de 6,61 sur le jeu de données COCO. De plus, RAPHAEL surpasse significativement ses concurrents dans les évaluations humaines sur le benchmark ViLG-300. Nous croyons que RAPHAEL a le potentiel de repousser les frontières de la recherche en génération d'images, tant dans le milieu académique que dans l'industrie, ouvrant la voie à de futures percées dans ce domaine en évolution rapide. Plus de détails sont disponibles sur la page web du projet : https://raphael-painter.github.io/.
English
Text-to-image generation has recently witnessed remarkable achievements. We introduce a text-conditional image diffusion model, termed RAPHAEL, to generate highly artistic images, which accurately portray the text prompts, encompassing multiple nouns, adjectives, and verbs. This is achieved by stacking tens of mixture-of-experts (MoEs) layers, i.e., space-MoE and time-MoE layers, enabling billions of diffusion paths (routes) from the network input to the output. Each path intuitively functions as a "painter" for depicting a particular textual concept onto a specified image region at a diffusion timestep. Comprehensive experiments reveal that RAPHAEL outperforms recent cutting-edge models, such as Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd, and DALL-E 2, in terms of both image quality and aesthetic appeal. Firstly, RAPHAEL exhibits superior performance in switching images across diverse styles, such as Japanese comics, realism, cyberpunk, and ink illustration. Secondly, a single model with three billion parameters, trained on 1,000 A100 GPUs for two months, achieves a state-of-the-art zero-shot FID score of 6.61 on the COCO dataset. Furthermore, RAPHAEL significantly surpasses its counterparts in human evaluation on the ViLG-300 benchmark. We believe that RAPHAEL holds the potential to propel the frontiers of image generation research in both academia and industry, paving the way for future breakthroughs in this rapidly evolving field. More details can be found on a project webpage: https://raphael-painter.github.io/.
PDF81December 15, 2024