Wuerstchen: Effizientes Pretraining von Text-zu-Bild-Modellen
Wuerstchen: Efficient Pretraining of Text-to-Image Models
June 1, 2023
Autoren: Pablo Pernias, Dominic Rampas, Marc Aubreville
cs.AI
Zusammenfassung
Wir stellen Wuerstchen vor, eine neuartige Technik für die Text-zu-Bild-Synthese, die wettbewerbsfähige Leistung mit beispielloser Kosteneffizienz und einfacher Trainierbarkeit auf begrenzter Hardware vereint. Basierend auf jüngsten Fortschritten im maschinellen Lernen reduziert unser Ansatz, der latente Diffusionsstrategien bei starken latenten Bildkompressionsraten nutzt, die typischerweise mit state-of-the-art Modellen verbundene Rechenlast erheblich, während die Qualität der generierten Bilder erhalten, wenn nicht sogar verbessert wird. Wuerstchen erzielt bemerkenswerte Geschwindigkeitsverbesserungen zur Inferenzzeit, wodurch Echtzeitanwendungen praktikabler werden. Einer der Hauptvorteile unserer Methode liegt in den bescheidenen Trainingsanforderungen von nur 9.200 GPU-Stunden, die die üblichen Kosten erheblich senken, ohne die Endleistung zu beeinträchtigen. In einem Vergleich mit dem State-of-the-art zeigte sich, dass der Ansatz eine starke Wettbewerbsfähigkeit aufweist. Dieses Papier eröffnet eine neue Forschungsrichtung, die sowohl Leistung als auch rechnerische Zugänglichkeit priorisiert und damit die Nutzung anspruchsvoller KI-Technologien demokratisiert. Durch Wuerstchen demonstrieren wir einen überzeugenden Fortschritt im Bereich der Text-zu-Bild-Synthese und bieten einen innovativen Pfad für zukünftige Forschung.
English
We introduce Wuerstchen, a novel technique for text-to-image synthesis that
unites competitive performance with unprecedented cost-effectiveness and ease
of training on constrained hardware. Building on recent advancements in machine
learning, our approach, which utilizes latent diffusion strategies at strong
latent image compression rates, significantly reduces the computational burden,
typically associated with state-of-the-art models, while preserving, if not
enhancing, the quality of generated images. Wuerstchen achieves notable speed
improvements at inference time, thereby rendering real-time applications more
viable. One of the key advantages of our method lies in its modest training
requirements of only 9,200 GPU hours, slashing the usual costs significantly
without compromising the end performance. In a comparison against the
state-of-the-art, we found the approach to yield strong competitiveness. This
paper opens the door to a new line of research that prioritizes both
performance and computational accessibility, hence democratizing the use of
sophisticated AI technologies. Through Wuerstchen, we demonstrate a compelling
stride forward in the realm of text-to-image synthesis, offering an innovative
path to explore in future research.