Gieriges Wachstum ermöglicht hochauflösende pixelbasierte Diffusionsmodelle.

papers.abstract

Wir behandeln das langjährige Problem, wie man effektive pixelbasierte Bildverdünnungsmodelle im großen Maßstab erlernen kann, indem wir eine bemerkenswert einfache gierige Wachstumsmethode zur stabilen Schulung großer, hochauflösender Modelle einführen, ohne die Notwendigkeit für kaskadierte Super-Resolution-Komponenten. Der Schlüsselerkenntnis liegt in einer sorgfältigen Vortrainierung der Kernkomponenten, nämlich derjenigen, die für die Text-zu-Bild-Ausrichtung {\it vs.} hochauflösende Darstellung verantwortlich sind. Wir zeigen zunächst die Vorteile des Skalierens eines {\it Flachen UNet}, ohne Abwärts(aufwärts)-Abtastungs-Enc(Dec)oder. Das Skalieren seiner tiefen Kernschichten verbessert die Ausrichtung, Objektstruktur und Komposition. Aufbauend auf diesem Kernmodell schlagen wir einen gierigen Algorithmus vor, der die Architektur zu hochauflösenden End-to-End-Modellen ausbaut, während die Integrität der vortrainierten Repräsentation erhalten bleibt, das Training stabilisiert und der Bedarf an großen hochauflösenden Datensätzen reduziert wird. Dies ermöglicht ein einstufiges Modell, das in der Lage ist, hochauflösende Bilder zu generieren, ohne auf eine Super-Resolution-Kaskade angewiesen zu sein. Unsere Hauptergebnisse beruhen auf öffentlichen Datensätzen und zeigen, dass wir nicht-kaskadierte Modelle mit bis zu 8B Parametern ohne weitere Regularisierungsschemata trainieren können. Vermeer, unser vollständiges Pipeline-Modell, das mit internen Datensätzen trainiert wurde, um 1024x1024 Bilder zu erzeugen, ohne Kaskaden, wird von 44,0% vs. 21,4% der menschlichen Evaluatoren gegenüber SDXL bevorzugt.

English

We address the long-standing problem of how to learn effective pixel-based image diffusion models at scale, introducing a remarkably simple greedy growing method for stable training of large-scale, high-resolution models. without the needs for cascaded super-resolution components. The key insight stems from careful pre-training of core components, namely, those responsible for text-to-image alignment {\it vs.} high-resolution rendering. We first demonstrate the benefits of scaling a {\it Shallow UNet}, with no down(up)-sampling enc(dec)oder. Scaling its deep core layers is shown to improve alignment, object structure, and composition. Building on this core model, we propose a greedy algorithm that grows the architecture into high-resolution end-to-end models, while preserving the integrity of the pre-trained representation, stabilizing training, and reducing the need for large high-resolution datasets. This enables a single stage model capable of generating high-resolution images without the need of a super-resolution cascade. Our key results rely on public datasets and show that we are able to train non-cascaded models up to 8B parameters with no further regularization schemes. Vermeer, our full pipeline model trained with internal datasets to produce 1024x1024 images, without cascades, is preferred by 44.0% vs. 21.4% human evaluators over SDXL.

Gieriges Wachstum ermöglicht hochauflösende pixelbasierte Diffusionsmodelle.

Greedy Growing Enables High-Resolution Pixel-Based Diffusion Models

papers.abstract

Support