Playground v2.5: Три идеи для повышения эстетического качества в генерации изображений по текстовому описанию
Playground v2.5: Three Insights towards Enhancing Aesthetic Quality in Text-to-Image Generation
February 27, 2024
Авторы: Daiqing Li, Aleks Kamko, Ehsan Akhgari, Ali Sabet, Linmiao Xu, Suhail Doshi
cs.AI
Аннотация
В данной работе мы представляем три ключевых идеи для достижения передового уровня эстетического качества в генеративных моделях преобразования текста в изображения. Мы сосредоточились на трех критических аспектах улучшения моделей: усиление цветовой гаммы и контраста, улучшение генерации для различных соотношений сторон и повышение детализации в изображениях с акцентом на человеческие элементы. Во-первых, мы исследуем важность графика шума при обучении диффузионной модели, демонстрируя его значительное влияние на реалистичность и визуальную точность. Во-вторых, мы рассматриваем задачу адаптации генерации изображений к различным соотношениям сторон, подчеркивая важность подготовки сбалансированного набора данных с группировкой по бакетам. В-третьих, мы изучаем ключевую роль согласования выходных данных модели с человеческими предпочтениями, обеспечивая, чтобы сгенерированные изображения соответствовали ожиданиям человеческого восприятия. Благодаря обширному анализу и экспериментам, Playground v2.5 демонстрирует передовые показатели эстетического качества в различных условиях и соотношениях сторон, превосходя как широко используемые открытые модели, такие как SDXL и Playground v2, так и коммерческие закрытые системы, такие как DALLE 3 и Midjourney v5.2. Наша модель является открытой, и мы надеемся, что разработка Playground v2.5 предоставит ценные рекомендации для исследователей, стремящихся повысить эстетическое качество диффузионных моделей генерации изображений.
English
In this work, we share three insights for achieving state-of-the-art
aesthetic quality in text-to-image generative models. We focus on three
critical aspects for model improvement: enhancing color and contrast, improving
generation across multiple aspect ratios, and improving human-centric fine
details. First, we delve into the significance of the noise schedule in
training a diffusion model, demonstrating its profound impact on realism and
visual fidelity. Second, we address the challenge of accommodating various
aspect ratios in image generation, emphasizing the importance of preparing a
balanced bucketed dataset. Lastly, we investigate the crucial role of aligning
model outputs with human preferences, ensuring that generated images resonate
with human perceptual expectations. Through extensive analysis and experiments,
Playground v2.5 demonstrates state-of-the-art performance in terms of aesthetic
quality under various conditions and aspect ratios, outperforming both
widely-used open-source models like SDXL and Playground v2, and closed-source
commercial systems such as DALLE 3 and Midjourney v5.2. Our model is
open-source, and we hope the development of Playground v2.5 provides valuable
guidelines for researchers aiming to elevate the aesthetic quality of
diffusion-based image generation models.