ChatPaper.aiChatPaper

Skalierung von Rectified Flow-Transformatoren für die Synthese hochauflösender Bilder

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

March 5, 2024
Autoren: Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Kyle Lacey, Alex Goodwin, Yannik Marek, Robin Rombach
cs.AI

Zusammenfassung

Diffusionsmodelle erzeugen Daten aus Rauschen, indem sie die Vorwärtspfade von Daten hin zu Rauschen umkehren, und haben sich als leistungsstarke generative Modellierungstechnik für hochdimensionale, wahrnehmungsbezogene Daten wie Bilder und Videos etabliert. Rectified Flow ist eine neuere Formulierung eines generativen Modells, das Daten und Rauschen in einer geraden Linie verbindet. Trotz seiner besseren theoretischen Eigenschaften und konzeptionellen Einfachheit hat es sich noch nicht entscheidend als Standardpraxis durchgesetzt. In dieser Arbeit verbessern wir bestehende Rauschabtasttechniken für das Training von Rectified-Flow-Modellen, indem wir sie auf wahrnehmungsrelevante Skalen ausrichten. Durch eine groß angelegte Studie demonstrieren wir die überlegene Leistung dieses Ansatzes im Vergleich zu etablierten Diffusionsformulierungen für die hochauflösende Text-zu-Bild-Synthese. Zusätzlich präsentieren wir eine neuartige Transformer-basierte Architektur für die Text-zu-Bild-Generierung, die separate Gewichte für die beiden Modalitäten verwendet und einen bidirektionalen Informationsfluss zwischen Bild- und Text-Tokens ermöglicht, was das Textverständnis, die Typografie und die menschlichen Präferenzbewertungen verbessert. Wir zeigen, dass diese Architektur vorhersehbare Skalierungstrends aufweist und einen geringeren Validierungsverlust mit einer verbesserten Text-zu-Bild-Synthese korreliert, gemessen an verschiedenen Metriken und menschlichen Bewertungen. Unsere größten Modelle übertreffen state-of-the-art Modelle, und wir werden unsere experimentellen Daten, Code und Modellgewichte öffentlich zugänglich machen.
English
Diffusion models create data from noise by inverting the forward paths of data towards noise and have emerged as a powerful generative modeling technique for high-dimensional, perceptual data such as images and videos. Rectified flow is a recent generative model formulation that connects data and noise in a straight line. Despite its better theoretical properties and conceptual simplicity, it is not yet decisively established as standard practice. In this work, we improve existing noise sampling techniques for training rectified flow models by biasing them towards perceptually relevant scales. Through a large-scale study, we demonstrate the superior performance of this approach compared to established diffusion formulations for high-resolution text-to-image synthesis. Additionally, we present a novel transformer-based architecture for text-to-image generation that uses separate weights for the two modalities and enables a bidirectional flow of information between image and text tokens, improving text comprehension, typography, and human preference ratings. We demonstrate that this architecture follows predictable scaling trends and correlates lower validation loss to improved text-to-image synthesis as measured by various metrics and human evaluations. Our largest models outperform state-of-the-art models, and we will make our experimental data, code, and model weights publicly available.
PDF683December 15, 2024