ChatPaper.aiChatPaper

고해상도 이미지 합성을 위한 Rectified Flow 트랜스포머 확장

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

March 5, 2024
저자: Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Kyle Lacey, Alex Goodwin, Yannik Marek, Robin Rombach
cs.AI

초록

확산 모델(Diffusion models)은 데이터를 노이즈로 변환하는 전방향 경로를 역으로 추적하여 노이즈로부터 데이터를 생성하며, 이미지와 비디오와 같은 고차원의 지각적 데이터를 위한 강력한 생성 모델링 기술로 부상했습니다. 정류 흐름(Rectified flow)은 데이터와 노이즈를 직선으로 연결하는 최근의 생성 모델 공식입니다. 더 나은 이론적 특성과 개념적 단순성에도 불구하고, 아직까지는 표준 관행으로 확고히 자리 잡지 못했습니다. 본 연구에서는 지각적으로 관련된 스케일을 선호하도록 편향된 노이즈 샘플링 기법을 통해 정류 흐름 모델의 학습을 개선합니다. 대규모 연구를 통해, 고해상도 텍스트-이미지 합성에서 이 접근법이 기존의 확산 모델 공식보다 우수한 성능을 보임을 입증합니다. 또한, 두 가지 양식에 대해 별도의 가중치를 사용하고 이미지와 텍스트 토큰 간의 양방향 정보 흐름을 가능하게 하는 새로운 트랜스포머 기반 아키텍처를 제시합니다. 이를 통해 텍스트 이해, 타이포그래피, 그리고 인간 선호도 평가가 개선됩니다. 이 아키텍처가 예측 가능한 스케일링 경향을 따르며, 다양한 메트릭과 인간 평가를 통해 측정된 텍스트-이미지 합성의 개선과 더 낮은 검증 손실 간의 상관관계를 보임을 입증합니다. 우리의 가장 큰 모델은 최첨단 모델을 능가하며, 실험 데이터, 코드, 그리고 모델 가중치를 공개할 예정입니다.
English
Diffusion models create data from noise by inverting the forward paths of data towards noise and have emerged as a powerful generative modeling technique for high-dimensional, perceptual data such as images and videos. Rectified flow is a recent generative model formulation that connects data and noise in a straight line. Despite its better theoretical properties and conceptual simplicity, it is not yet decisively established as standard practice. In this work, we improve existing noise sampling techniques for training rectified flow models by biasing them towards perceptually relevant scales. Through a large-scale study, we demonstrate the superior performance of this approach compared to established diffusion formulations for high-resolution text-to-image synthesis. Additionally, we present a novel transformer-based architecture for text-to-image generation that uses separate weights for the two modalities and enables a bidirectional flow of information between image and text tokens, improving text comprehension, typography, and human preference ratings. We demonstrate that this architecture follows predictable scaling trends and correlates lower validation loss to improved text-to-image synthesis as measured by various metrics and human evaluations. Our largest models outperform state-of-the-art models, and we will make our experimental data, code, and model weights publicly available.
PDF683December 15, 2024