Scalabilità dei Trasformatori a Flusso Rettificato per la Sintesi di Immagini ad Alta Risoluzione

Abstract

I modelli di diffusione generano dati dal rumore invertendo i percorsi in avanti dei dati verso il rumore e si sono affermati come una potente tecnica di modellazione generativa per dati percettivi ad alta dimensionalità, come immagini e video. Il flusso rettificato è una recente formulazione di modello generativo che collega dati e rumore in una linea retta. Nonostante le sue migliori proprietà teoriche e la semplicità concettuale, non è ancora stato definitivamente stabilito come pratica standard. In questo lavoro, miglioriamo le tecniche esistenti di campionamento del rumore per l'addestramento di modelli di flusso rettificato, orientandole verso scale percettivamente rilevanti. Attraverso uno studio su larga scala, dimostriamo la performance superiore di questo approccio rispetto alle formulazioni di diffusione consolidate per la sintesi di immagini ad alta risoluzione da testo. Inoltre, presentiamo una nuova architettura basata su transformer per la generazione di immagini da testo che utilizza pesi separati per le due modalità e consente un flusso bidirezionale di informazioni tra i token di immagine e testo, migliorando la comprensione del testo, la tipografia e le valutazioni di preferenza umana. Dimostriamo che questa architettura segue tendenze di scalabilità prevedibili e correla una minore perdita di validazione a una migliore sintesi di immagini da testo, misurata attraverso varie metriche e valutazioni umane. I nostri modelli più grandi superano i modelli all'avanguardia, e renderemo pubblicamente disponibili i nostri dati sperimentali, il codice e i pesi dei modelli.

English

Diffusion models create data from noise by inverting the forward paths of data towards noise and have emerged as a powerful generative modeling technique for high-dimensional, perceptual data such as images and videos. Rectified flow is a recent generative model formulation that connects data and noise in a straight line. Despite its better theoretical properties and conceptual simplicity, it is not yet decisively established as standard practice. In this work, we improve existing noise sampling techniques for training rectified flow models by biasing them towards perceptually relevant scales. Through a large-scale study, we demonstrate the superior performance of this approach compared to established diffusion formulations for high-resolution text-to-image synthesis. Additionally, we present a novel transformer-based architecture for text-to-image generation that uses separate weights for the two modalities and enables a bidirectional flow of information between image and text tokens, improving text comprehension, typography, and human preference ratings. We demonstrate that this architecture follows predictable scaling trends and correlates lower validation loss to improved text-to-image synthesis as measured by various metrics and human evaluations. Our largest models outperform state-of-the-art models, and we will make our experimental data, code, and model weights publicly available.

Scalabilità dei Trasformatori a Flusso Rettificato per la Sintesi di Immagini ad Alta Risoluzione

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

Abstract

Support