Scalabilità dei Trasformatori a Flusso Rettificato per la Sintesi di Immagini ad Alta Risoluzione
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
March 5, 2024
Autori: Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Kyle Lacey, Alex Goodwin, Yannik Marek, Robin Rombach
cs.AI
Abstract
I modelli di diffusione generano dati dal rumore invertendo i percorsi in avanti dei dati verso il rumore e si sono affermati come una potente tecnica di modellazione generativa per dati percettivi ad alta dimensionalità, come immagini e video. Il flusso rettificato è una recente formulazione di modello generativo che collega dati e rumore in una linea retta. Nonostante le sue migliori proprietà teoriche e la semplicità concettuale, non è ancora stato definitivamente stabilito come pratica standard. In questo lavoro, miglioriamo le tecniche esistenti di campionamento del rumore per l'addestramento di modelli di flusso rettificato, orientandole verso scale percettivamente rilevanti. Attraverso uno studio su larga scala, dimostriamo la performance superiore di questo approccio rispetto alle formulazioni di diffusione consolidate per la sintesi di immagini ad alta risoluzione da testo. Inoltre, presentiamo una nuova architettura basata su transformer per la generazione di immagini da testo che utilizza pesi separati per le due modalità e consente un flusso bidirezionale di informazioni tra i token di immagine e testo, migliorando la comprensione del testo, la tipografia e le valutazioni di preferenza umana. Dimostriamo che questa architettura segue tendenze di scalabilità prevedibili e correla una minore perdita di validazione a una migliore sintesi di immagini da testo, misurata attraverso varie metriche e valutazioni umane. I nostri modelli più grandi superano i modelli all'avanguardia, e renderemo pubblicamente disponibili i nostri dati sperimentali, il codice e i pesi dei modelli.
English
Diffusion models create data from noise by inverting the forward paths of
data towards noise and have emerged as a powerful generative modeling technique
for high-dimensional, perceptual data such as images and videos. Rectified flow
is a recent generative model formulation that connects data and noise in a
straight line. Despite its better theoretical properties and conceptual
simplicity, it is not yet decisively established as standard practice. In this
work, we improve existing noise sampling techniques for training rectified flow
models by biasing them towards perceptually relevant scales. Through a
large-scale study, we demonstrate the superior performance of this approach
compared to established diffusion formulations for high-resolution
text-to-image synthesis. Additionally, we present a novel transformer-based
architecture for text-to-image generation that uses separate weights for the
two modalities and enables a bidirectional flow of information between image
and text tokens, improving text comprehension, typography, and human preference
ratings. We demonstrate that this architecture follows predictable scaling
trends and correlates lower validation loss to improved text-to-image synthesis
as measured by various metrics and human evaluations. Our largest models
outperform state-of-the-art models, and we will make our experimental data,
code, and model weights publicly available.