Wuerstchen: Efficiënte Pretraining van Tekst-naar-Beeldmodellen

Samenvatting

We introduceren Wuerstchen, een nieuwe techniek voor tekst-naar-beeld-synthese die concurrerende prestaties combineert met ongekende kosteneffectiviteit en eenvoud van training op beperkte hardware. Gebaseerd op recente vooruitgang in machine learning, vermindert onze aanpak, die gebruikmaakt van latente diffusiestrategieën bij sterke compressiepercentages van latente beelden, de rekenlast aanzienlijk, die doorgaans geassocieerd wordt met state-of-the-art modellen, terwijl de kwaliteit van de gegenereerde beelden behouden blijft, zo niet verbeterd. Wuerstchen behaalt opmerkelijke snelheidsverbeteringen tijdens inferentie, waardoor real-time toepassingen haalbarder worden. Een van de belangrijkste voordelen van onze methode ligt in de bescheiden trainingsvereisten van slechts 9.200 GPU-uren, waardoor de gebruikelijke kosten aanzienlijk worden verlaagd zonder in te leveren op de eindprestaties. In een vergelijking met de state-of-the-art bleek de aanpak sterk concurrerend te zijn. Dit artikel opent de deur naar een nieuwe onderzoekslijn die zowel prestaties als computationale toegankelijkheid prioriteert, en zo het gebruik van geavanceerde AI-technologieën democratiseert. Met Wuerstchen demonstreren we een overtuigende stap voorwaarts in het domein van tekst-naar-beeld-synthese, en bieden we een innovatieve weg om in toekomstig onderzoek te verkennen.

English

We introduce Wuerstchen, a novel technique for text-to-image synthesis that unites competitive performance with unprecedented cost-effectiveness and ease of training on constrained hardware. Building on recent advancements in machine learning, our approach, which utilizes latent diffusion strategies at strong latent image compression rates, significantly reduces the computational burden, typically associated with state-of-the-art models, while preserving, if not enhancing, the quality of generated images. Wuerstchen achieves notable speed improvements at inference time, thereby rendering real-time applications more viable. One of the key advantages of our method lies in its modest training requirements of only 9,200 GPU hours, slashing the usual costs significantly without compromising the end performance. In a comparison against the state-of-the-art, we found the approach to yield strong competitiveness. This paper opens the door to a new line of research that prioritizes both performance and computational accessibility, hence democratizing the use of sophisticated AI technologies. Through Wuerstchen, we demonstrate a compelling stride forward in the realm of text-to-image synthesis, offering an innovative path to explore in future research.

Wuerstchen: Efficiënte Pretraining van Tekst-naar-Beeldmodellen

Wuerstchen: Efficient Pretraining of Text-to-Image Models

Samenvatting

Support