ChatPaper.aiChatPaper

Масштабирование преобразователей потоков с выпрямленными функциями для синтеза изображений высокого разрешения

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

March 5, 2024
Авторы: Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Kyle Lacey, Alex Goodwin, Yannik Marek, Robin Rombach
cs.AI

Аннотация

Модели диффузии создают данные из шума, инвертируя прямые пути данных к шуму, и стали мощной техникой генеративного моделирования для высокоразмерных восприимчивых данных, таких как изображения и видео. Прямой поток - недавняя формулировка генеративной модели, которая соединяет данные и шум прямой линией. Несмотря на лучшие теоретические свойства и концептуальную простоту, она пока не является стандартной практикой. В данной работе мы улучшаем существующие техники выборки шума для обучения моделей прямого потока, направляя их к перцептивно значимым масштабам. Через масштабное исследование мы демонстрируем превосходную производительность этого подхода по сравнению с установленными формулировками диффузии для синтеза текста в изображение высокого разрешения. Кроме того, мы представляем новую архитектуру на основе трансформера для генерации изображений по тексту, которая использует отдельные веса для двух модальностей и обеспечивает двунаправленный поток информации между изображением и текстовыми токенами, улучшая понимание текста, типографию и предпочтения человека. Мы демонстрируем, что эта архитектура следует предсказуемым тенденциям масштабирования и связывает более низкую потерю на валидации с улучшением синтеза текста в изображение, измеряемым различными метриками и оценками людей. Наши самые крупные модели превосходят современные модели, и мы сделаем наши экспериментальные данные, код и веса моделей общедоступными.
English
Diffusion models create data from noise by inverting the forward paths of data towards noise and have emerged as a powerful generative modeling technique for high-dimensional, perceptual data such as images and videos. Rectified flow is a recent generative model formulation that connects data and noise in a straight line. Despite its better theoretical properties and conceptual simplicity, it is not yet decisively established as standard practice. In this work, we improve existing noise sampling techniques for training rectified flow models by biasing them towards perceptually relevant scales. Through a large-scale study, we demonstrate the superior performance of this approach compared to established diffusion formulations for high-resolution text-to-image synthesis. Additionally, we present a novel transformer-based architecture for text-to-image generation that uses separate weights for the two modalities and enables a bidirectional flow of information between image and text tokens, improving text comprehension, typography, and human preference ratings. We demonstrate that this architecture follows predictable scaling trends and correlates lower validation loss to improved text-to-image synthesis as measured by various metrics and human evaluations. Our largest models outperform state-of-the-art models, and we will make our experimental data, code, and model weights publicly available.
PDF683December 15, 2024