RAPHAEL: Generazione di immagini da testo tramite una grande miscela di percorsi di diffusione
RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths
May 29, 2023
Autori: Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, Ping Luo
cs.AI
Abstract
La generazione di immagini da testo ha recentemente raggiunto risultati straordinari. Presentiamo un modello di diffusione di immagini condizionato dal testo, denominato RAPHAEL, in grado di generare immagini altamente artistiche che rappresentano accuratamente i prompt testuali, comprendenti più sostantivi, aggettivi e verbi. Questo risultato è ottenuto impilando decine di strati di mixture-of-experts (MoE), ovvero strati space-MoE e time-MoE, che abilitano miliardi di percorsi di diffusione (route) dall'input alla rete all'output. Ogni percorso funziona intuitivamente come un "pittore" per rappresentare un particolare concetto testuale in una specifica regione dell'immagine in un determinato passo temporale della diffusione. Esperimenti completi rivelano che RAPHAEL supera i recenti modelli all'avanguardia, come Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd e DALL-E 2, sia in termini di qualità dell'immagine che di appeal estetico. In primo luogo, RAPHAEL dimostra prestazioni superiori nel passaggio tra immagini di stili diversi, come fumetti giapponesi, realismo, cyberpunk e illustrazioni a inchiostro. In secondo luogo, un singolo modello con tre miliardi di parametri, addestrato su 1.000 GPU A100 per due mesi, raggiunge uno score FID zero-shot di 6.61 sul dataset COCO, stabilendo un nuovo stato dell'arte. Inoltre, RAPHAEL supera significativamente i suoi concorrenti nelle valutazioni umane sul benchmark ViLG-300. Crediamo che RAPHAEL abbia il potenziale per spingere le frontiere della ricerca sulla generazione di immagini sia in ambito accademico che industriale, aprendo la strada a futuri progressi in questo campo in rapida evoluzione. Ulteriori dettagli sono disponibili su una pagina web del progetto: https://raphael-painter.github.io/.
English
Text-to-image generation has recently witnessed remarkable achievements. We
introduce a text-conditional image diffusion model, termed RAPHAEL, to generate
highly artistic images, which accurately portray the text prompts, encompassing
multiple nouns, adjectives, and verbs. This is achieved by stacking tens of
mixture-of-experts (MoEs) layers, i.e., space-MoE and time-MoE layers, enabling
billions of diffusion paths (routes) from the network input to the output. Each
path intuitively functions as a "painter" for depicting a particular textual
concept onto a specified image region at a diffusion timestep. Comprehensive
experiments reveal that RAPHAEL outperforms recent cutting-edge models, such as
Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd, and DALL-E 2, in terms of both
image quality and aesthetic appeal. Firstly, RAPHAEL exhibits superior
performance in switching images across diverse styles, such as Japanese comics,
realism, cyberpunk, and ink illustration. Secondly, a single model with three
billion parameters, trained on 1,000 A100 GPUs for two months, achieves a
state-of-the-art zero-shot FID score of 6.61 on the COCO dataset. Furthermore,
RAPHAEL significantly surpasses its counterparts in human evaluation on the
ViLG-300 benchmark. We believe that RAPHAEL holds the potential to propel the
frontiers of image generation research in both academia and industry, paving
the way for future breakthroughs in this rapidly evolving field. More details
can be found on a project webpage: https://raphael-painter.github.io/.