Wuerstchen: Pre-addestramento Efficiente di Modelli Text-to-Image

Abstract

Presentiamo Wuerstchen, una tecnica innovativa per la sintesi di immagini da testo che unisce prestazioni competitive a una convenienza senza precedenti e a una facilità di addestramento su hardware limitato. Basandoci sui recenti progressi nel campo dell'apprendimento automatico, il nostro approccio, che utilizza strategie di diffusione latente con alti tassi di compressione delle immagini latenti, riduce significativamente il carico computazionale tipicamente associato ai modelli all'avanguardia, preservando, se non migliorando, la qualità delle immagini generate. Wuerstchen ottiene notevoli miglioramenti in termini di velocità durante l'inferenza, rendendo così più fattibili applicazioni in tempo reale. Uno dei principali vantaggi del nostro metodo risiede nei modesti requisiti di addestramento, che richiedono solo 9.200 ore di GPU, riducendo drasticamente i costi abituali senza compromettere le prestazioni finali. In un confronto con le tecnologie più avanzate, abbiamo riscontrato che l'approccio offre una forte competitività. Questo articolo apre la strada a una nuova linea di ricerca che privilegia sia le prestazioni che l'accessibilità computazionale, democratizzando così l'uso di tecnologie AI sofisticate. Attraverso Wuerstchen, dimostriamo un significativo passo avanti nel campo della sintesi di immagini da testo, offrendo un percorso innovativo da esplorare nelle ricerche future.

English

We introduce Wuerstchen, a novel technique for text-to-image synthesis that unites competitive performance with unprecedented cost-effectiveness and ease of training on constrained hardware. Building on recent advancements in machine learning, our approach, which utilizes latent diffusion strategies at strong latent image compression rates, significantly reduces the computational burden, typically associated with state-of-the-art models, while preserving, if not enhancing, the quality of generated images. Wuerstchen achieves notable speed improvements at inference time, thereby rendering real-time applications more viable. One of the key advantages of our method lies in its modest training requirements of only 9,200 GPU hours, slashing the usual costs significantly without compromising the end performance. In a comparison against the state-of-the-art, we found the approach to yield strong competitiveness. This paper opens the door to a new line of research that prioritizes both performance and computational accessibility, hence democratizing the use of sophisticated AI technologies. Through Wuerstchen, we demonstrate a compelling stride forward in the realm of text-to-image synthesis, offering an innovative path to explore in future research.

Wuerstchen: Pre-addestramento Efficiente di Modelli Text-to-Image

Wuerstchen: Efficient Pretraining of Text-to-Image Models

Abstract

Support