InstaFlow: Всего один шаг для высококачественной генерации изображений на основе диффузии из текста
InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation
September 12, 2023
Авторы: Xingchao Liu, Xiwen Zhang, Jianzhu Ma, Jian Peng, Qiang Liu
cs.AI
Аннотация
Диффузионные модели произвели революцию в генерации изображений из текста благодаря их исключительному качеству и креативности. Однако их многошаговый процесс сэмплирования известен своей медлительностью, часто требуя десятков шагов вывода для получения удовлетворительных результатов. Предыдущие попытки улучшить скорость сэмплирования и снизить вычислительные затраты с помощью дистилляции не увенчались успехом в создании функциональной одношаговой модели. В данной работе мы исследуем недавний метод под названием Rectified Flow, который до сих пор применялся только на небольших наборах данных. Основная идея Rectified Flow заключается в процедуре reflow, которая выпрямляет траектории потоков вероятностей, улучшает связь между шумами и изображениями и облегчает процесс дистилляции с использованием студенческих моделей. Мы предлагаем новый текстово-обусловленный подход для превращения Stable Diffusion (SD) в сверхбыструю одношаговую модель, в котором reflow играет ключевую роль в улучшении соответствия между шумами и изображениями. Используя наш новый подход, мы создаем, насколько нам известно, первый одношаговый генератор изображений из текста на основе диффузии с качеством изображений на уровне SD, достигая FID (Frechet Inception Distance) 23.3 на MS COCO 2017-5k, что значительно превосходит предыдущий передовой метод, прогрессивную дистилляцию (37.2 → 23.3 по FID). Благодаря использованию расширенной сети с 1.7 миллиардами параметров, мы дополнительно улучшаем FID до 22.4. Мы называем наши одношаговые модели InstaFlow. На MS COCO 2014-30k InstaFlow демонстрирует FID 13.1 всего за 0.09 секунды, что является лучшим результатом в режиме ≤ 0.1 секунды, превосходя недавний StyleGAN-T (13.9 за 0.1 секунду). Примечательно, что обучение InstaFlow занимает всего 199 дней на GPU A100. Страница проекта: https://github.com/gnobitab/InstaFlow.
English
Diffusion models have revolutionized text-to-image generation with its
exceptional quality and creativity. However, its multi-step sampling process is
known to be slow, often requiring tens of inference steps to obtain
satisfactory results. Previous attempts to improve its sampling speed and
reduce computational costs through distillation have been unsuccessful in
achieving a functional one-step model. In this paper, we explore a recent
method called Rectified Flow, which, thus far, has only been applied to small
datasets. The core of Rectified Flow lies in its reflow procedure, which
straightens the trajectories of probability flows, refines the coupling between
noises and images, and facilitates the distillation process with student
models. We propose a novel text-conditioned pipeline to turn Stable Diffusion
(SD) into an ultra-fast one-step model, in which we find reflow plays a
critical role in improving the assignment between noise and images. Leveraging
our new pipeline, we create, to the best of our knowledge, the first one-step
diffusion-based text-to-image generator with SD-level image quality, achieving
an FID (Frechet Inception Distance) of 23.3 on MS COCO 2017-5k, surpassing
the previous state-of-the-art technique, progressive distillation, by a
significant margin (37.2 rightarrow 23.3 in FID). By utilizing an
expanded network with 1.7B parameters, we further improve the FID to 22.4. We
call our one-step models InstaFlow. On MS COCO 2014-30k, InstaFlow
yields an FID of 13.1 in just 0.09 second, the best in leq 0.1 second
regime, outperforming the recent StyleGAN-T (13.9 in 0.1 second). Notably,
the training of InstaFlow only costs 199 A100 GPU days. Project
page:~https://github.com/gnobitab/InstaFlow.