PixArt-Σ: 4K 텍스트-이미지 생성을 위한 Diffusion Transformer의 약한 강도에서 강한 강도로의 학습
PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
March 7, 2024
저자: Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li
cs.AI
초록
본 논문에서는 4K 해상도의 이미지를 직접 생성할 수 있는 Diffusion Transformer 모델(DiT)인 PixArt-Σ를 소개한다. PixArt-Σ는 전작인 PixArt-α에 비해 현저히 향상된 화질과 텍스트 프롬프트와의 더 나은 정렬을 제공하며, 이는 큰 진전을 의미한다. PixArt-Σ의 주요 특징 중 하나는 학습 효율성이다. PixArt-α의 기초 사전 학습을 활용하여, 더 높은 품질의 데이터를 통합함으로써 '약한' 기준 모델에서 '강한' 모델로 진화하는 과정을 "약-강 학습(weak-to-strong training)"이라 명명한다. PixArt-Σ의 발전은 두 가지 측면에서 이루어졌다: (1) 고품질 학습 데이터: PixArt-Σ는 더 우수한 품질의 이미지 데이터와 더 정밀하고 상세한 이미지 캡션을 통합하였다. (2) 효율적인 토큰 압축: DiT 프레임워크 내에서 키와 값을 모두 압축하는 새로운 주의 모듈을 제안하여, 효율성을 크게 개선하고 초고해상도 이미지 생성을 용이하게 하였다. 이러한 개선 덕분에 PixArt-Σ는 SDXL(2.6B 매개변수) 및 SD Cascade(5.1B 매개변수)와 같은 기존의 텍스트-이미지 확산 모델보다 훨씬 작은 모델 크기(0.6B 매개변수)로도 우수한 이미지 품질과 사용자 프롬프트 준수 능력을 달성한다. 또한, PixArt-Σ의 4K 이미지 생성 기능은 고해상도 포스터 및 배경화면 제작을 지원하며, 영화 및 게임과 같은 산업에서 고품질 시각 콘텐츠 생산을 효율적으로 강화한다.
English
In this paper, we introduce PixArt-\Sigma, a Diffusion Transformer
model~(DiT) capable of directly generating images at 4K resolution.
PixArt-\Sigma represents a significant advancement over its predecessor,
PixArt-\alpha, offering images of markedly higher fidelity and improved
alignment with text prompts. A key feature of PixArt-\Sigma is its training
efficiency. Leveraging the foundational pre-training of PixArt-\alpha, it
evolves from the `weaker' baseline to a `stronger' model via incorporating
higher quality data, a process we term "weak-to-strong training". The
advancements in PixArt-\Sigma are twofold: (1) High-Quality Training Data:
PixArt-\Sigma incorporates superior-quality image data, paired with more
precise and detailed image captions. (2) Efficient Token Compression: we
propose a novel attention module within the DiT framework that compresses both
keys and values, significantly improving efficiency and facilitating
ultra-high-resolution image generation. Thanks to these improvements,
PixArt-\Sigma achieves superior image quality and user prompt adherence
capabilities with significantly smaller model size (0.6B parameters) than
existing text-to-image diffusion models, such as SDXL (2.6B parameters) and SD
Cascade (5.1B parameters). Moreover, PixArt-\Sigma's capability to generate 4K
images supports the creation of high-resolution posters and wallpapers,
efficiently bolstering the production of high-quality visual content in
industries such as film and gaming.