ChatPaper.aiChatPaper

DiT-Air: 텍스트-이미지 생성에서의 확산 모델 아키텍처 설계 효율성 재고

DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation

March 13, 2025
저자: Chen Chen, Rui Qian, Wenze Hu, Tsu-Jui Fu, Lezhi Li, Bowen Zhang, Alex Schwing, Wei Liu, Yinfei Yang
cs.AI

초록

본 연구에서는 텍스트-이미지 생성을 위한 Diffusion Transformer(DiT)를 실증적으로 연구하며, 아키텍처 선택, 텍스트 조건화 전략, 그리고 학습 프로토콜에 초점을 맞춥니다. 우리는 PixArt 스타일과 MMDiT 변형을 포함한 다양한 DiT 기반 아키텍처를 평가하고, 이를 텍스트와 노이즈 입력을 직접 연결하여 처리하는 표준 DiT 변형과 비교합니다. 놀랍게도, 우리의 연구 결과는 표준 DiT의 성능이 이러한 특화된 모델들과 비슷한 수준임을 보여주며, 특히 규모가 커질 때 더 우수한 파라미터 효율성을 보여줍니다. 계층별 파라미터 공유 전략을 활용하여, 우리는 MMDiT 아키텍처 대비 모델 크기를 66% 더 줄이면서도 성능 저하를 최소화했습니다. 텍스트 인코더와 Variational Auto-Encoder(VAE)와 같은 핵심 구성 요소에 대한 심층 분석을 바탕으로, 우리는 DiT-Air와 DiT-Air-Lite를 소개합니다. 지도 학습과 보상 미세 조정을 통해, DiT-Air는 GenEval과 T2I CompBench에서 최첨단 성능을 달성했으며, DiT-Air-Lite는 컴팩트한 크기에도 불구하고 대부분의 기존 모델을 능가하며 매우 경쟁력 있는 성능을 유지했습니다.
English
In this work, we empirically study Diffusion Transformers (DiTs) for text-to-image generation, focusing on architectural choices, text-conditioning strategies, and training protocols. We evaluate a range of DiT-based architectures--including PixArt-style and MMDiT variants--and compare them with a standard DiT variant which directly processes concatenated text and noise inputs. Surprisingly, our findings reveal that the performance of standard DiT is comparable with those specialized models, while demonstrating superior parameter-efficiency, especially when scaled up. Leveraging the layer-wise parameter sharing strategy, we achieve a further reduction of 66% in model size compared to an MMDiT architecture, with minimal performance impact. Building on an in-depth analysis of critical components such as text encoders and Variational Auto-Encoders (VAEs), we introduce DiT-Air and DiT-Air-Lite. With supervised and reward fine-tuning, DiT-Air achieves state-of-the-art performance on GenEval and T2I CompBench, while DiT-Air-Lite remains highly competitive, surpassing most existing models despite its compact size.

Summary

AI-Generated Summary

PDF172March 14, 2025