Playground v2.5: Drei Erkenntnisse zur Verbesserung der ästhetischen Qualität in der Text-zu-Bild-Generierung
Playground v2.5: Three Insights towards Enhancing Aesthetic Quality in Text-to-Image Generation
February 27, 2024
Autoren: Daiqing Li, Aleks Kamko, Ehsan Akhgari, Ali Sabet, Linmiao Xu, Suhail Doshi
cs.AI
Zusammenfassung
In dieser Arbeit teilen wir drei Erkenntnisse, um eine erstklassige ästhetische Qualität in text-zu-bild-generativen Modellen zu erreichen. Wir konzentrieren uns auf drei entscheidende Aspekte zur Verbesserung des Modells: die Steigerung von Farbe und Kontrast, die Verbesserung der Generierung über mehrere Seitenverhältnisse hinweg und die Optimierung feiner, menschenzentrierter Details. Zunächst untersuchen wir die Bedeutung des Rauschzeitplans beim Training eines Diffusionsmodells und zeigen dessen tiefgreifenden Einfluss auf Realismus und visuelle Qualität. Zweitens gehen wir auf die Herausforderung ein, verschiedene Seitenverhältnisse bei der Bildgenerierung zu berücksichtigen, und betonen die Bedeutung eines ausgewogenen, in Buckets organisierten Datensatzes. Schließlich untersuchen wir die entscheidende Rolle der Ausrichtung der Modellausgaben an menschlichen Präferenzen, um sicherzustellen, dass generierte Bilder den menschlichen Wahrnehmungserwartungen entsprechen. Durch umfangreiche Analysen und Experimente zeigt Playground v2.5 eine erstklassige Leistung in Bezug auf ästhetische Qualität unter verschiedenen Bedingungen und Seitenverhältnissen und übertrifft sowohl weit verbreitete Open-Source-Modelle wie SDXL und Playground v2 als auch proprietäre kommerzielle Systeme wie DALLE 3 und Midjourney v5.2. Unser Modell ist Open-Source, und wir hoffen, dass die Entwicklung von Playground v2.5 wertvolle Leitlinien für Forscher bietet, die die ästhetische Qualität diffusionsbasierter Bildgenerierungsmodelle verbessern möchten.
English
In this work, we share three insights for achieving state-of-the-art
aesthetic quality in text-to-image generative models. We focus on three
critical aspects for model improvement: enhancing color and contrast, improving
generation across multiple aspect ratios, and improving human-centric fine
details. First, we delve into the significance of the noise schedule in
training a diffusion model, demonstrating its profound impact on realism and
visual fidelity. Second, we address the challenge of accommodating various
aspect ratios in image generation, emphasizing the importance of preparing a
balanced bucketed dataset. Lastly, we investigate the crucial role of aligning
model outputs with human preferences, ensuring that generated images resonate
with human perceptual expectations. Through extensive analysis and experiments,
Playground v2.5 demonstrates state-of-the-art performance in terms of aesthetic
quality under various conditions and aspect ratios, outperforming both
widely-used open-source models like SDXL and Playground v2, and closed-source
commercial systems such as DALLE 3 and Midjourney v5.2. Our model is
open-source, and we hope the development of Playground v2.5 provides valuable
guidelines for researchers aiming to elevate the aesthetic quality of
diffusion-based image generation models.