Wuerstchen: Эффективное предварительное обучение моделей для генерации изображений по тексту

Аннотация

Мы представляем Wuerstchen — новую методику синтеза изображений по тексту, которая сочетает конкурентоспособную производительность с беспрецедентной экономичностью и простотой обучения на ограниченных аппаратных ресурсах. Опираясь на последние достижения в области машинного обучения, наш подход, использующий стратегии латентной диффузии при высокой степени сжатия латентных изображений, значительно снижает вычислительную нагрузку, обычно связанную с передовыми моделями, сохраняя, а в некоторых случаях даже улучшая качество генерируемых изображений. Wuerstchen демонстрирует заметное ускорение на этапе вывода, что делает приложения в реальном времени более реалистичными. Одним из ключевых преимуществ нашего метода являются скромные требования к обучению — всего 9 200 GPU-часов, что значительно сокращает обычные затраты без ущерба для конечной производительности. В сравнении с современными решениями наш подход показал высокую конкурентоспособность. Эта работа открывает путь к новому направлению исследований, которое уделяет равное внимание как производительности, так и вычислительной доступности, тем самым демократизируя использование сложных технологий искусственного интеллекта. С помощью Wuerstchen мы демонстрируем значительный шаг вперед в области синтеза изображений по тексту, предлагая инновационный путь для изучения в будущих исследованиях.

English

We introduce Wuerstchen, a novel technique for text-to-image synthesis that unites competitive performance with unprecedented cost-effectiveness and ease of training on constrained hardware. Building on recent advancements in machine learning, our approach, which utilizes latent diffusion strategies at strong latent image compression rates, significantly reduces the computational burden, typically associated with state-of-the-art models, while preserving, if not enhancing, the quality of generated images. Wuerstchen achieves notable speed improvements at inference time, thereby rendering real-time applications more viable. One of the key advantages of our method lies in its modest training requirements of only 9,200 GPU hours, slashing the usual costs significantly without compromising the end performance. In a comparison against the state-of-the-art, we found the approach to yield strong competitiveness. This paper opens the door to a new line of research that prioritizes both performance and computational accessibility, hence democratizing the use of sophisticated AI technologies. Through Wuerstchen, we demonstrate a compelling stride forward in the realm of text-to-image synthesis, offering an innovative path to explore in future research.

Wuerstchen: Эффективное предварительное обучение моделей для генерации изображений по тексту

Wuerstchen: Efficient Pretraining of Text-to-Image Models

Аннотация

Support