Mise à l'échelle des transformateurs de flux rectifiés pour la synthèse d'images haute résolution

papers.abstract

Les modèles de diffusion génèrent des données à partir de bruit en inversant les trajectoires directes des données vers le bruit et se sont imposés comme une technique puissante de modélisation générative pour les données perceptuelles de haute dimension, telles que les images et les vidéos. Le flux rectifié est une formulation récente de modèle génératif qui relie les données et le bruit en ligne droite. Malgré ses meilleures propriétés théoriques et sa simplicité conceptuelle, il n'est pas encore fermement établi comme pratique standard. Dans ce travail, nous améliorons les techniques existantes d'échantillonnage de bruit pour l'entraînement des modèles de flux rectifié en les biaisant vers des échelles perceptuellement pertinentes. À travers une étude à grande échelle, nous démontrons la performance supérieure de cette approche par rapport aux formulations de diffusion établies pour la synthèse d'images haute résolution à partir de texte. De plus, nous présentons une nouvelle architecture basée sur des transformers pour la génération d'images à partir de texte, qui utilise des poids distincts pour les deux modalités et permet un flux bidirectionnel d'information entre les tokens d'image et de texte, améliorant ainsi la compréhension du texte, la typographie et les évaluations de préférence humaine. Nous montrons que cette architecture suit des tendances de mise à l'échelle prévisibles et corrèle une perte de validation plus faible à une meilleure synthèse d'images à partir de texte, mesurée par diverses métriques et évaluations humaines. Nos plus grands modèles surpassent les modèles de pointe, et nous rendrons publiques nos données expérimentales, notre code et les poids de nos modèles.

English

Diffusion models create data from noise by inverting the forward paths of data towards noise and have emerged as a powerful generative modeling technique for high-dimensional, perceptual data such as images and videos. Rectified flow is a recent generative model formulation that connects data and noise in a straight line. Despite its better theoretical properties and conceptual simplicity, it is not yet decisively established as standard practice. In this work, we improve existing noise sampling techniques for training rectified flow models by biasing them towards perceptually relevant scales. Through a large-scale study, we demonstrate the superior performance of this approach compared to established diffusion formulations for high-resolution text-to-image synthesis. Additionally, we present a novel transformer-based architecture for text-to-image generation that uses separate weights for the two modalities and enables a bidirectional flow of information between image and text tokens, improving text comprehension, typography, and human preference ratings. We demonstrate that this architecture follows predictable scaling trends and correlates lower validation loss to improved text-to-image synthesis as measured by various metrics and human evaluations. Our largest models outperform state-of-the-art models, and we will make our experimental data, code, and model weights publicly available.

Mise à l'échelle des transformateurs de flux rectifiés pour la synthèse d'images haute résolution

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

papers.abstract

Support