ChatPaper.aiChatPaper

Escalonamento de Transformadores de Fluxo Retificado para Síntese de Imagens de Alta Resolução

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

March 5, 2024
Autores: Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Kyle Lacey, Alex Goodwin, Yannik Marek, Robin Rombach
cs.AI

Resumo

Modelos de difusão criam dados a partir de ruído ao inverter os caminhos direcionais dos dados em direção ao ruído e emergiram como uma técnica poderosa de modelagem generativa para dados perceptuais de alta dimensionalidade, como imagens e vídeos. O fluxo retificado é uma formulação recente de modelo generativo que conecta dados e ruído em uma linha reta. Apesar de suas melhores propriedades teóricas e simplicidade conceitual, ele ainda não foi estabelecido de forma decisiva como prática padrão. Neste trabalho, aprimoramos as técnicas existentes de amostragem de ruído para treinar modelos de fluxo retificado, direcionando-as para escalas perceptualmente relevantes. Por meio de um estudo em larga escala, demonstramos o desempenho superior dessa abordagem em comparação com formulações de difusão estabelecidas para síntese de texto em imagem de alta resolução. Além disso, apresentamos uma nova arquitetura baseada em transformers para geração de texto em imagem que utiliza pesos separados para as duas modalidades e permite um fluxo bidirecional de informação entre tokens de imagem e texto, melhorando a compreensão do texto, a tipografia e as avaliações de preferência humana. Demonstramos que essa arquitetura segue tendências previsíveis de escalabilidade e correlaciona uma menor perda de validação com uma síntese melhorada de texto em imagem, conforme medido por várias métricas e avaliações humanas. Nossos maiores modelos superam os modelos state-of-the-art, e disponibilizaremos publicamente nossos dados experimentais, código e pesos dos modelos.
English
Diffusion models create data from noise by inverting the forward paths of data towards noise and have emerged as a powerful generative modeling technique for high-dimensional, perceptual data such as images and videos. Rectified flow is a recent generative model formulation that connects data and noise in a straight line. Despite its better theoretical properties and conceptual simplicity, it is not yet decisively established as standard practice. In this work, we improve existing noise sampling techniques for training rectified flow models by biasing them towards perceptually relevant scales. Through a large-scale study, we demonstrate the superior performance of this approach compared to established diffusion formulations for high-resolution text-to-image synthesis. Additionally, we present a novel transformer-based architecture for text-to-image generation that uses separate weights for the two modalities and enables a bidirectional flow of information between image and text tokens, improving text comprehension, typography, and human preference ratings. We demonstrate that this architecture follows predictable scaling trends and correlates lower validation loss to improved text-to-image synthesis as measured by various metrics and human evaluations. Our largest models outperform state-of-the-art models, and we will make our experimental data, code, and model weights publicly available.
PDF704December 15, 2024