CogView3: Feinere und schnellere Text-zu-Bild-Erzeugung durch Relay-Diffusion

Zusammenfassung

In jüngster Zeit wurden Fortschritte bei generativen Systemen zur Text-zu-Bild-Erstellung weitgehend durch Diffusionsmodelle vorangetrieben. Allerdings stehen Ein-Stufen-Text-zu-Bild-Diffusionsmodelle immer noch vor Herausforderungen hinsichtlich der Rechenleistung und der Verfeinerung von Bilddetails. Um dieses Problem anzugehen, schlagen wir CogView3 vor, ein innovatives gestuftes Rahmenwerk, das die Leistung der Text-zu-Bild-Diffusion verbessert. CogView3 ist das erste Modell, das Relay-Diffusion im Bereich der Text-zu-Bild-Erzeugung implementiert, indem es die Aufgabe zunächst durch die Erstellung von Niedrigauflösungsbildern und anschließend durch die Anwendung von Relay-basierter Superauflösung ausführt. Diese Methodik führt nicht nur zu wettbewerbsfähigen Text-zu-Bild-Ausgaben, sondern reduziert auch erheblich sowohl die Schulungs- als auch die Inferenzkosten. Unsere experimentellen Ergebnisse zeigen, dass CogView3 SDXL, das derzeit modernste Open-Source-Text-zu-Bild-Diffusionsmodell, um 77,0\% in menschlichen Bewertungen übertrifft und dabei nur etwa die Hälfte der Inferenzzeit benötigt. Die destillierte Variante von CogView3 erzielt vergleichbare Leistungen, während sie nur 1/10 der Inferenzzeit von SDXL benötigt.

English

Recent advancements in text-to-image generative systems have been largely driven by diffusion models. However, single-stage text-to-image diffusion models still face challenges, in terms of computational efficiency and the refinement of image details. To tackle the issue, we propose CogView3, an innovative cascaded framework that enhances the performance of text-to-image diffusion. CogView3 is the first model implementing relay diffusion in the realm of text-to-image generation, executing the task by first creating low-resolution images and subsequently applying relay-based super-resolution. This methodology not only results in competitive text-to-image outputs but also greatly reduces both training and inference costs. Our experimental results demonstrate that CogView3 outperforms SDXL, the current state-of-the-art open-source text-to-image diffusion model, by 77.0\% in human evaluations, all while requiring only about 1/2 of the inference time. The distilled variant of CogView3 achieves comparable performance while only utilizing 1/10 of the inference time by SDXL.

CogView3: Feinere und schnellere Text-zu-Bild-Erzeugung durch Relay-Diffusion

CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion

Zusammenfassung

Support