Wuerstchen: Efficiënte Pretraining van Tekst-naar-Beeldmodellen
Wuerstchen: Efficient Pretraining of Text-to-Image Models
June 1, 2023
Auteurs: Pablo Pernias, Dominic Rampas, Marc Aubreville
cs.AI
Samenvatting
We introduceren Wuerstchen, een nieuwe techniek voor tekst-naar-beeld-synthese die
concurrerende prestaties combineert met ongekende kosteneffectiviteit en eenvoud
van training op beperkte hardware. Gebaseerd op recente vooruitgang in machine
learning, vermindert onze aanpak, die gebruikmaakt van latente diffusiestrategieën bij
sterke compressiepercentages van latente beelden, de rekenlast aanzienlijk,
die doorgaans geassocieerd wordt met state-of-the-art modellen, terwijl de kwaliteit
van de gegenereerde beelden behouden blijft, zo niet verbeterd. Wuerstchen behaalt
opmerkelijke snelheidsverbeteringen tijdens inferentie, waardoor real-time toepassingen
haalbarder worden. Een van de belangrijkste voordelen van onze methode ligt in de
bescheiden trainingsvereisten van slechts 9.200 GPU-uren, waardoor de gebruikelijke
kosten aanzienlijk worden verlaagd zonder in te leveren op de eindprestaties. In een
vergelijking met de state-of-the-art bleek de aanpak sterk concurrerend te zijn. Dit
artikel opent de deur naar een nieuwe onderzoekslijn die zowel prestaties als
computationale toegankelijkheid prioriteert, en zo het gebruik van geavanceerde
AI-technologieën democratiseert. Met Wuerstchen demonstreren we een overtuigende
stap voorwaarts in het domein van tekst-naar-beeld-synthese, en bieden we een
innovatieve weg om in toekomstig onderzoek te verkennen.
English
We introduce Wuerstchen, a novel technique for text-to-image synthesis that
unites competitive performance with unprecedented cost-effectiveness and ease
of training on constrained hardware. Building on recent advancements in machine
learning, our approach, which utilizes latent diffusion strategies at strong
latent image compression rates, significantly reduces the computational burden,
typically associated with state-of-the-art models, while preserving, if not
enhancing, the quality of generated images. Wuerstchen achieves notable speed
improvements at inference time, thereby rendering real-time applications more
viable. One of the key advantages of our method lies in its modest training
requirements of only 9,200 GPU hours, slashing the usual costs significantly
without compromising the end performance. In a comparison against the
state-of-the-art, we found the approach to yield strong competitiveness. This
paper opens the door to a new line of research that prioritizes both
performance and computational accessibility, hence democratizing the use of
sophisticated AI technologies. Through Wuerstchen, we demonstrate a compelling
stride forward in the realm of text-to-image synthesis, offering an innovative
path to explore in future research.