Модель фазовой согласованностиPhased Consistency Model
Модель согласованности (CM) недавно сделала значительный прогресс в ускорении генерации моделей диффузии. Однако ее применение к генерации изображений, зависящих от текста, высокого разрешения в латентном пространстве (так называемая LCM), остается неудовлетворительным. В данной статье мы выявляем три ключевых недостатка в текущем дизайне LCM. Мы исследуем причины этих ограничений и предлагаем Модель Фазовой Согласованности (PCM), которая обобщает пространство дизайна и устраняет все выявленные недостатки. Наши оценки показывают, что PCM значительно превосходит LCM настройках генерации от 1 до 16 шагов. Хотя PCM специально разработана для многошагового уточнения, она достигает даже более высоких или сравнимых результатов генерации на 1 шаге по сравнению с ранее передовыми методами, специально разработанными для генерации на 1 шаге. Более того, мы показываем, что методология PCM универсальна и применима к генерации видео, что позволяет нам обучить передовой генератор текста в видео на несколько шагов. Более подробная информация доступна на https://g-u-n.github.io/projects/pcm/.