RAPHAEL: Text-zu-Bild-Generierung durch große Mischung von Diffusionspfaden
RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths
May 29, 2023
Autoren: Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, Ping Luo
cs.AI
Zusammenfassung
Die Text-zu-Bild-Generierung hat in letzter Zeit bemerkenswerte Fortschritte erzielt. Wir stellen ein textbedingtes Bild-Diffusionsmodell vor, genannt RAPHAEL, das hochgradig künstlerische Bilder erzeugt, die die Textvorgaben präzise darstellen und dabei mehrere Substantive, Adjektive und Verben umfassen. Dies wird durch das Stapeln von Dutzenden von Mixture-of-Experts (MoE)-Schichten erreicht, nämlich Space-MoE- und Time-MoE-Schichten, die Milliarden von Diffusionspfaden (Routen) vom Netzwerkeingang zum Ausgang ermöglichen. Jeder Pfad fungiert intuitiv als „Maler“, der ein bestimmtes textuelles Konzept in einem spezifischen Bildbereich zu einem bestimmten Diffusionszeitpunkt darstellt. Umfassende Experimente zeigen, dass RAPHAEL aktuelle Spitzenmodelle wie Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd und DALL-E 2 sowohl in Bezug auf die Bildqualität als auch auf die ästhetische Anziehungskraft übertrifft. Erstens zeigt RAPHAEL eine überlegene Leistung beim Wechsel von Bildern zwischen verschiedenen Stilen wie japanischen Comics, Realismus, Cyberpunk und Tuscheillustrationen. Zweitens erreicht ein einzelnes Modell mit drei Milliarden Parametern, das auf 1.000 A100-GPUs über zwei Monate trainiert wurde, einen state-of-the-art Zero-Shot-FID-Score von 6,61 auf dem COCO-Datensatz. Darüber hinaus übertrifft RAPHAEL seine Konkurrenten in der menschlichen Bewertung auf dem ViLG-300-Benchmark deutlich. Wir glauben, dass RAPHAEL das Potenzial hat, die Grenzen der Bildgenerierungsforschung sowohl in der Wissenschaft als auch in der Industrie voranzutreiben und den Weg für zukünftige Durchbrüche in diesem sich schnell entwickelnden Feld zu ebnen. Weitere Details finden Sie auf der Projektwebseite: https://raphael-painter.github.io/.
English
Text-to-image generation has recently witnessed remarkable achievements. We
introduce a text-conditional image diffusion model, termed RAPHAEL, to generate
highly artistic images, which accurately portray the text prompts, encompassing
multiple nouns, adjectives, and verbs. This is achieved by stacking tens of
mixture-of-experts (MoEs) layers, i.e., space-MoE and time-MoE layers, enabling
billions of diffusion paths (routes) from the network input to the output. Each
path intuitively functions as a "painter" for depicting a particular textual
concept onto a specified image region at a diffusion timestep. Comprehensive
experiments reveal that RAPHAEL outperforms recent cutting-edge models, such as
Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd, and DALL-E 2, in terms of both
image quality and aesthetic appeal. Firstly, RAPHAEL exhibits superior
performance in switching images across diverse styles, such as Japanese comics,
realism, cyberpunk, and ink illustration. Secondly, a single model with three
billion parameters, trained on 1,000 A100 GPUs for two months, achieves a
state-of-the-art zero-shot FID score of 6.61 on the COCO dataset. Furthermore,
RAPHAEL significantly surpasses its counterparts in human evaluation on the
ViLG-300 benchmark. We believe that RAPHAEL holds the potential to propel the
frontiers of image generation research in both academia and industry, paving
the way for future breakthroughs in this rapidly evolving field. More details
can be found on a project webpage: https://raphael-painter.github.io/.