ChatPaper.aiChatPaper

RAPHAEL: Генерация изображений из текста с использованием большой смеси диффузионных путей

RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths

May 29, 2023
Авторы: Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, Ping Luo
cs.AI

Аннотация

Генерация изображений по тексту в последнее время достигла значительных успехов. Мы представляем тексто-условную диффузионную модель изображений под названием RAPHAEL, которая создает высокохудожественные изображения, точно передающие текстовые запросы, включающие множественные существительные, прилагательные и глаголы. Это достигается за счет использования десятков слоев смеси экспертов (MoE), а именно пространственных и временных слоев MoE, что позволяет создавать миллиарды диффузионных путей (маршрутов) от входа сети к выходу. Каждый путь интуитивно функционирует как "художник", изображающий определенный текстовый концепт в заданной области изображения на определенном шаге диффузии. Комплексные эксперименты показывают, что RAPHAEL превосходит современные модели, такие как Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd и DALL-E 2, как по качеству изображений, так и по эстетической привлекательности. Во-первых, RAPHAEL демонстрирует превосходную способность переключать изображения между различными стилями, такими как японские комиксы, реализм, киберпанк и иллюстрации тушью. Во-вторых, одна модель с тремя миллиардами параметров, обученная на 1000 GPU A100 в течение двух месяцев, достигает рекордного показателя FID в 6.61 на наборе данных COCO в режиме zero-shot. Кроме того, RAPHAEL значительно превосходит аналоги в оценке людьми на бенчмарке ViLG-300. Мы считаем, что RAPHAEL обладает потенциалом для продвижения границ исследований в области генерации изображений как в академической среде, так и в промышленности, прокладывая путь для будущих прорывов в этой быстро развивающейся области. Дополнительные детали можно найти на странице проекта: https://raphael-painter.github.io/.
English
Text-to-image generation has recently witnessed remarkable achievements. We introduce a text-conditional image diffusion model, termed RAPHAEL, to generate highly artistic images, which accurately portray the text prompts, encompassing multiple nouns, adjectives, and verbs. This is achieved by stacking tens of mixture-of-experts (MoEs) layers, i.e., space-MoE and time-MoE layers, enabling billions of diffusion paths (routes) from the network input to the output. Each path intuitively functions as a "painter" for depicting a particular textual concept onto a specified image region at a diffusion timestep. Comprehensive experiments reveal that RAPHAEL outperforms recent cutting-edge models, such as Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd, and DALL-E 2, in terms of both image quality and aesthetic appeal. Firstly, RAPHAEL exhibits superior performance in switching images across diverse styles, such as Japanese comics, realism, cyberpunk, and ink illustration. Secondly, a single model with three billion parameters, trained on 1,000 A100 GPUs for two months, achieves a state-of-the-art zero-shot FID score of 6.61 on the COCO dataset. Furthermore, RAPHAEL significantly surpasses its counterparts in human evaluation on the ViLG-300 benchmark. We believe that RAPHAEL holds the potential to propel the frontiers of image generation research in both academia and industry, paving the way for future breakthroughs in this rapidly evolving field. More details can be found on a project webpage: https://raphael-painter.github.io/.
PDF81December 15, 2024