Wuerstchen: Pré-treinamento Eficiente de Modelos de Texto para Imagem
Wuerstchen: Efficient Pretraining of Text-to-Image Models
June 1, 2023
Autores: Pablo Pernias, Dominic Rampas, Marc Aubreville
cs.AI
Resumo
Apresentamos o Wuerstchen, uma técnica inovadora para síntese de texto em imagem que combina desempenho competitivo com uma eficiência de custo sem precedentes e facilidade de treinamento em hardware limitado. Baseando-se em avanços recentes em aprendizado de máquina, nossa abordagem, que utiliza estratégias de difusão latente com altas taxas de compressão de imagem latente, reduz significativamente a carga computacional tipicamente associada aos modelos de última geração, preservando, ou até mesmo melhorando, a qualidade das imagens geradas. O Wuerstchen alcança melhorias notáveis de velocidade no tempo de inferência, tornando aplicações em tempo real mais viáveis. Uma das principais vantagens do nosso método reside em seus requisitos modestos de treinamento, exigindo apenas 9.200 horas de GPU, reduzindo drasticamente os custos habituais sem comprometer o desempenho final. Em uma comparação com os modelos de última geração, verificamos que a abordagem apresenta forte competitividade. Este artigo abre caminho para uma nova linha de pesquisa que prioriza tanto o desempenho quanto a acessibilidade computacional, democratizando assim o uso de tecnologias de IA sofisticadas. Através do Wuerstchen, demonstramos um avanço convincente no campo da síntese de texto em imagem, oferecendo um caminho inovador a ser explorado em pesquisas futuras.
English
We introduce Wuerstchen, a novel technique for text-to-image synthesis that
unites competitive performance with unprecedented cost-effectiveness and ease
of training on constrained hardware. Building on recent advancements in machine
learning, our approach, which utilizes latent diffusion strategies at strong
latent image compression rates, significantly reduces the computational burden,
typically associated with state-of-the-art models, while preserving, if not
enhancing, the quality of generated images. Wuerstchen achieves notable speed
improvements at inference time, thereby rendering real-time applications more
viable. One of the key advantages of our method lies in its modest training
requirements of only 9,200 GPU hours, slashing the usual costs significantly
without compromising the end performance. In a comparison against the
state-of-the-art, we found the approach to yield strong competitiveness. This
paper opens the door to a new line of research that prioritizes both
performance and computational accessibility, hence democratizing the use of
sophisticated AI technologies. Through Wuerstchen, we demonstrate a compelling
stride forward in the realm of text-to-image synthesis, offering an innovative
path to explore in future research.