RAPHAEL: Tekst-naar-beeldgeneratie via een grote mix van diffusiepaden
RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths
May 29, 2023
Auteurs: Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, Ping Luo
cs.AI
Samenvatting
Text-to-image-generatie heeft recentelijk opmerkelijke prestaties laten zien. Wij introduceren een tekst-conditioneel beelddiffusiemodel, genaamd RAPHAEL, om hoogst artistieke beelden te genereren die tekstprompts nauwkeurig weergeven, waarbij meerdere zelfstandige naamwoorden, bijvoeglijke naamwoorden en werkwoorden worden omvat. Dit wordt bereikt door tientallen mixture-of-experts (MoE)-lagen te stapelen, namelijk space-MoE en time-MoE lagen, waardoor miljarden diffusiepaden (routes) van de netwerkinvoer naar de uitvoer mogelijk worden. Elk pad fungeert intuïtief als een "schilder" voor het afbeelden van een specifiek tekstueel concept op een bepaald beeldgebied tijdens een diffusietijdstap. Uitgebreide experimenten tonen aan dat RAPHAEL recente state-of-the-art modellen, zoals Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd en DALL-E 2, overtreft in termen van zowel beeldkwaliteit als esthetische aantrekkingskracht. Ten eerste toont RAPHAEL superieure prestaties in het overschakelen van beelden tussen diverse stijlen, zoals Japanse strips, realisme, cyberpunk en inktillustraties. Ten tweede behaalt een enkel model met drie miljard parameters, getraind op 1.000 A100 GPU's gedurende twee maanden, een state-of-the-art zero-shot FID-score van 6.61 op de COCO-dataset. Bovendien overtreft RAPHAEL zijn tegenhangers aanzienlijk in menselijke evaluatie op de ViLG-300 benchmark. Wij geloven dat RAPHAEL het potentieel heeft om de grenzen van beeldgeneratieonderzoek in zowel academische als industriële context te verleggen, en zo de weg te effenen voor toekomstige doorbraken in dit snel evoluerende veld. Meer details zijn te vinden op een projectwebpagina: https://raphael-painter.github.io/.
English
Text-to-image generation has recently witnessed remarkable achievements. We
introduce a text-conditional image diffusion model, termed RAPHAEL, to generate
highly artistic images, which accurately portray the text prompts, encompassing
multiple nouns, adjectives, and verbs. This is achieved by stacking tens of
mixture-of-experts (MoEs) layers, i.e., space-MoE and time-MoE layers, enabling
billions of diffusion paths (routes) from the network input to the output. Each
path intuitively functions as a "painter" for depicting a particular textual
concept onto a specified image region at a diffusion timestep. Comprehensive
experiments reveal that RAPHAEL outperforms recent cutting-edge models, such as
Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd, and DALL-E 2, in terms of both
image quality and aesthetic appeal. Firstly, RAPHAEL exhibits superior
performance in switching images across diverse styles, such as Japanese comics,
realism, cyberpunk, and ink illustration. Secondly, a single model with three
billion parameters, trained on 1,000 A100 GPUs for two months, achieves a
state-of-the-art zero-shot FID score of 6.61 on the COCO dataset. Furthermore,
RAPHAEL significantly surpasses its counterparts in human evaluation on the
ViLG-300 benchmark. We believe that RAPHAEL holds the potential to propel the
frontiers of image generation research in both academia and industry, paving
the way for future breakthroughs in this rapidly evolving field. More details
can be found on a project webpage: https://raphael-painter.github.io/.