Wuerstchen: Pre-addestramento Efficiente di Modelli Text-to-Image
Wuerstchen: Efficient Pretraining of Text-to-Image Models
June 1, 2023
Autori: Pablo Pernias, Dominic Rampas, Marc Aubreville
cs.AI
Abstract
Presentiamo Wuerstchen, una tecnica innovativa per la sintesi di immagini da testo che unisce prestazioni competitive a una convenienza senza precedenti e a una facilità di addestramento su hardware limitato. Basandoci sui recenti progressi nel campo dell'apprendimento automatico, il nostro approccio, che utilizza strategie di diffusione latente con alti tassi di compressione delle immagini latenti, riduce significativamente il carico computazionale tipicamente associato ai modelli all'avanguardia, preservando, se non migliorando, la qualità delle immagini generate. Wuerstchen ottiene notevoli miglioramenti in termini di velocità durante l'inferenza, rendendo così più fattibili applicazioni in tempo reale. Uno dei principali vantaggi del nostro metodo risiede nei modesti requisiti di addestramento, che richiedono solo 9.200 ore di GPU, riducendo drasticamente i costi abituali senza compromettere le prestazioni finali. In un confronto con le tecnologie più avanzate, abbiamo riscontrato che l'approccio offre una forte competitività. Questo articolo apre la strada a una nuova linea di ricerca che privilegia sia le prestazioni che l'accessibilità computazionale, democratizzando così l'uso di tecnologie AI sofisticate. Attraverso Wuerstchen, dimostriamo un significativo passo avanti nel campo della sintesi di immagini da testo, offrendo un percorso innovativo da esplorare nelle ricerche future.
English
We introduce Wuerstchen, a novel technique for text-to-image synthesis that
unites competitive performance with unprecedented cost-effectiveness and ease
of training on constrained hardware. Building on recent advancements in machine
learning, our approach, which utilizes latent diffusion strategies at strong
latent image compression rates, significantly reduces the computational burden,
typically associated with state-of-the-art models, while preserving, if not
enhancing, the quality of generated images. Wuerstchen achieves notable speed
improvements at inference time, thereby rendering real-time applications more
viable. One of the key advantages of our method lies in its modest training
requirements of only 9,200 GPU hours, slashing the usual costs significantly
without compromising the end performance. In a comparison against the
state-of-the-art, we found the approach to yield strong competitiveness. This
paper opens the door to a new line of research that prioritizes both
performance and computational accessibility, hence democratizing the use of
sophisticated AI technologies. Through Wuerstchen, we demonstrate a compelling
stride forward in the realm of text-to-image synthesis, offering an innovative
path to explore in future research.