Wuerstchen: Pré-treinamento Eficiente de Modelos de Texto para Imagem

Resumo

Apresentamos o Wuerstchen, uma técnica inovadora para síntese de texto em imagem que combina desempenho competitivo com uma eficiência de custo sem precedentes e facilidade de treinamento em hardware limitado. Baseando-se em avanços recentes em aprendizado de máquina, nossa abordagem, que utiliza estratégias de difusão latente com altas taxas de compressão de imagem latente, reduz significativamente a carga computacional tipicamente associada aos modelos de última geração, preservando, ou até mesmo melhorando, a qualidade das imagens geradas. O Wuerstchen alcança melhorias notáveis de velocidade no tempo de inferência, tornando aplicações em tempo real mais viáveis. Uma das principais vantagens do nosso método reside em seus requisitos modestos de treinamento, exigindo apenas 9.200 horas de GPU, reduzindo drasticamente os custos habituais sem comprometer o desempenho final. Em uma comparação com os modelos de última geração, verificamos que a abordagem apresenta forte competitividade. Este artigo abre caminho para uma nova linha de pesquisa que prioriza tanto o desempenho quanto a acessibilidade computacional, democratizando assim o uso de tecnologias de IA sofisticadas. Através do Wuerstchen, demonstramos um avanço convincente no campo da síntese de texto em imagem, oferecendo um caminho inovador a ser explorado em pesquisas futuras.

English

We introduce Wuerstchen, a novel technique for text-to-image synthesis that unites competitive performance with unprecedented cost-effectiveness and ease of training on constrained hardware. Building on recent advancements in machine learning, our approach, which utilizes latent diffusion strategies at strong latent image compression rates, significantly reduces the computational burden, typically associated with state-of-the-art models, while preserving, if not enhancing, the quality of generated images. Wuerstchen achieves notable speed improvements at inference time, thereby rendering real-time applications more viable. One of the key advantages of our method lies in its modest training requirements of only 9,200 GPU hours, slashing the usual costs significantly without compromising the end performance. In a comparison against the state-of-the-art, we found the approach to yield strong competitiveness. This paper opens the door to a new line of research that prioritizes both performance and computational accessibility, hence democratizing the use of sophisticated AI technologies. Through Wuerstchen, we demonstrate a compelling stride forward in the realm of text-to-image synthesis, offering an innovative path to explore in future research.

Wuerstchen: Pré-treinamento Eficiente de Modelos de Texto para Imagem

Wuerstchen: Efficient Pretraining of Text-to-Image Models

Resumo

Support