Wuerstchen: Эффективное предварительное обучение моделей для генерации изображений по тексту
Wuerstchen: Efficient Pretraining of Text-to-Image Models
June 1, 2023
Авторы: Pablo Pernias, Dominic Rampas, Marc Aubreville
cs.AI
Аннотация
Мы представляем Wuerstchen — новую методику синтеза изображений по тексту, которая сочетает конкурентоспособную производительность с беспрецедентной экономичностью и простотой обучения на ограниченных аппаратных ресурсах. Опираясь на последние достижения в области машинного обучения, наш подход, использующий стратегии латентной диффузии при высокой степени сжатия латентных изображений, значительно снижает вычислительную нагрузку, обычно связанную с передовыми моделями, сохраняя, а в некоторых случаях даже улучшая качество генерируемых изображений. Wuerstchen демонстрирует заметное ускорение на этапе вывода, что делает приложения в реальном времени более реалистичными. Одним из ключевых преимуществ нашего метода являются скромные требования к обучению — всего 9 200 GPU-часов, что значительно сокращает обычные затраты без ущерба для конечной производительности. В сравнении с современными решениями наш подход показал высокую конкурентоспособность. Эта работа открывает путь к новому направлению исследований, которое уделяет равное внимание как производительности, так и вычислительной доступности, тем самым демократизируя использование сложных технологий искусственного интеллекта. С помощью Wuerstchen мы демонстрируем значительный шаг вперед в области синтеза изображений по тексту, предлагая инновационный путь для изучения в будущих исследованиях.
English
We introduce Wuerstchen, a novel technique for text-to-image synthesis that
unites competitive performance with unprecedented cost-effectiveness and ease
of training on constrained hardware. Building on recent advancements in machine
learning, our approach, which utilizes latent diffusion strategies at strong
latent image compression rates, significantly reduces the computational burden,
typically associated with state-of-the-art models, while preserving, if not
enhancing, the quality of generated images. Wuerstchen achieves notable speed
improvements at inference time, thereby rendering real-time applications more
viable. One of the key advantages of our method lies in its modest training
requirements of only 9,200 GPU hours, slashing the usual costs significantly
without compromising the end performance. In a comparison against the
state-of-the-art, we found the approach to yield strong competitiveness. This
paper opens the door to a new line of research that prioritizes both
performance and computational accessibility, hence democratizing the use of
sophisticated AI technologies. Through Wuerstchen, we demonstrate a compelling
stride forward in the realm of text-to-image synthesis, offering an innovative
path to explore in future research.