Mise à l'échelle des transformateurs de flux rectifiés pour la synthèse d'images haute résolution
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
March 5, 2024
Auteurs: Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Kyle Lacey, Alex Goodwin, Yannik Marek, Robin Rombach
cs.AI
Résumé
Les modèles de diffusion génèrent des données à partir de bruit en inversant les trajectoires directes des données vers le bruit et se sont imposés comme une technique puissante de modélisation générative pour les données perceptuelles de haute dimension, telles que les images et les vidéos. Le flux rectifié est une formulation récente de modèle génératif qui relie les données et le bruit en ligne droite. Malgré ses meilleures propriétés théoriques et sa simplicité conceptuelle, il n'est pas encore fermement établi comme pratique standard. Dans ce travail, nous améliorons les techniques existantes d'échantillonnage de bruit pour l'entraînement des modèles de flux rectifié en les biaisant vers des échelles perceptuellement pertinentes. À travers une étude à grande échelle, nous démontrons la performance supérieure de cette approche par rapport aux formulations de diffusion établies pour la synthèse d'images haute résolution à partir de texte. De plus, nous présentons une nouvelle architecture basée sur des transformers pour la génération d'images à partir de texte, qui utilise des poids distincts pour les deux modalités et permet un flux bidirectionnel d'information entre les tokens d'image et de texte, améliorant ainsi la compréhension du texte, la typographie et les évaluations de préférence humaine. Nous montrons que cette architecture suit des tendances de mise à l'échelle prévisibles et corrèle une perte de validation plus faible à une meilleure synthèse d'images à partir de texte, mesurée par diverses métriques et évaluations humaines. Nos plus grands modèles surpassent les modèles de pointe, et nous rendrons publiques nos données expérimentales, notre code et les poids de nos modèles.
English
Diffusion models create data from noise by inverting the forward paths of
data towards noise and have emerged as a powerful generative modeling technique
for high-dimensional, perceptual data such as images and videos. Rectified flow
is a recent generative model formulation that connects data and noise in a
straight line. Despite its better theoretical properties and conceptual
simplicity, it is not yet decisively established as standard practice. In this
work, we improve existing noise sampling techniques for training rectified flow
models by biasing them towards perceptually relevant scales. Through a
large-scale study, we demonstrate the superior performance of this approach
compared to established diffusion formulations for high-resolution
text-to-image synthesis. Additionally, we present a novel transformer-based
architecture for text-to-image generation that uses separate weights for the
two modalities and enables a bidirectional flow of information between image
and text tokens, improving text comprehension, typography, and human preference
ratings. We demonstrate that this architecture follows predictable scaling
trends and correlates lower validation loss to improved text-to-image synthesis
as measured by various metrics and human evaluations. Our largest models
outperform state-of-the-art models, and we will make our experimental data,
code, and model weights publicly available.