Playground v2.5: Três Insights para Melhorar a Qualidade Estética na Geração de Imagens a partir de Texto

Resumo

Neste trabalho, compartilhamos três insights para alcançar qualidade estética de ponta em modelos generativos de texto para imagem. Focamos em três aspectos críticos para a melhoria do modelo: aprimoramento de cores e contraste, melhoria na geração em múltiplas proporções de aspecto e refinamento de detalhes centrados no ser humano. Primeiro, exploramos a importância do cronograma de ruído no treinamento de um modelo de difusão, demonstrando seu impacto profundo no realismo e na fidelidade visual. Segundo, abordamos o desafio de acomodar várias proporções de aspecto na geração de imagens, enfatizando a importância de preparar um conjunto de dados balanceado e segmentado. Por fim, investigamos o papel crucial de alinhar as saídas do modelo com as preferências humanas, garantindo que as imagens geradas ressoem com as expectativas perceptivas humanas. Por meio de análises e experimentos extensivos, o Playground v2.5 demonstra desempenho de ponta em termos de qualidade estética sob diversas condições e proporções de aspecto, superando tanto modelos de código aberto amplamente utilizados, como SDXL e Playground v2, quanto sistemas comerciais de código fechado, como DALLE 3 e Midjourney v5.2. Nosso modelo é de código aberto, e esperamos que o desenvolvimento do Playground v2.5 forneça diretrizes valiosas para pesquisadores que visam elevar a qualidade estética de modelos de geração de imagens baseados em difusão.

English

In this work, we share three insights for achieving state-of-the-art aesthetic quality in text-to-image generative models. We focus on three critical aspects for model improvement: enhancing color and contrast, improving generation across multiple aspect ratios, and improving human-centric fine details. First, we delve into the significance of the noise schedule in training a diffusion model, demonstrating its profound impact on realism and visual fidelity. Second, we address the challenge of accommodating various aspect ratios in image generation, emphasizing the importance of preparing a balanced bucketed dataset. Lastly, we investigate the crucial role of aligning model outputs with human preferences, ensuring that generated images resonate with human perceptual expectations. Through extensive analysis and experiments, Playground v2.5 demonstrates state-of-the-art performance in terms of aesthetic quality under various conditions and aspect ratios, outperforming both widely-used open-source models like SDXL and Playground v2, and closed-source commercial systems such as DALLE 3 and Midjourney v5.2. Our model is open-source, and we hope the development of Playground v2.5 provides valuable guidelines for researchers aiming to elevate the aesthetic quality of diffusion-based image generation models.

Playground v2.5: Três Insights para Melhorar a Qualidade Estética na Geração de Imagens a partir de Texto

Playground v2.5: Three Insights towards Enhancing Aesthetic Quality in Text-to-Image Generation

Resumo

Support