ChatPaper.aiChatPaper

DiT-Air: テキストから画像生成における拡散モデルアーキテクチャ設計の効率性の再検討

DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation

March 13, 2025
著者: Chen Chen, Rui Qian, Wenze Hu, Tsu-Jui Fu, Lezhi Li, Bowen Zhang, Alex Schwing, Wei Liu, Yinfei Yang
cs.AI

要旨

本研究では、テキストから画像を生成するためのDiffusion Transformer(DiT)を実証的に研究し、アーキテクチャの選択、テキスト条件付け戦略、およびトレーニングプロトコルに焦点を当てています。PixArtスタイルやMMDiTバリアントを含む一連のDiTベースのアーキテクチャを評価し、それらをテキストとノイズ入力を直接連結して処理する標準的なDiTバリアントと比較します。驚くべきことに、標準的なDiTの性能は、これらの専門モデルと同等でありながら、特にスケールアップ時に優れたパラメータ効率を示すことが明らかになりました。層ごとのパラメータ共有戦略を活用することで、MMDiTアーキテクチャと比較してモデルサイズを66%削減し、性能への影響を最小限に抑えました。テキストエンコーダやVariational Auto-Encoder(VAE)などの重要なコンポーネントの詳細な分析に基づいて、DiT-AirとDiT-Air-Liteを導入しました。教師あり学習と報酬ファインチューニングにより、DiT-AirはGenEvalとT2I CompBenchで最先端の性能を達成し、DiT-Air-Liteはそのコンパクトなサイズにもかかわらず、既存のほとんどのモデルを凌駕する高い競争力を維持しています。
English
In this work, we empirically study Diffusion Transformers (DiTs) for text-to-image generation, focusing on architectural choices, text-conditioning strategies, and training protocols. We evaluate a range of DiT-based architectures--including PixArt-style and MMDiT variants--and compare them with a standard DiT variant which directly processes concatenated text and noise inputs. Surprisingly, our findings reveal that the performance of standard DiT is comparable with those specialized models, while demonstrating superior parameter-efficiency, especially when scaled up. Leveraging the layer-wise parameter sharing strategy, we achieve a further reduction of 66% in model size compared to an MMDiT architecture, with minimal performance impact. Building on an in-depth analysis of critical components such as text encoders and Variational Auto-Encoders (VAEs), we introduce DiT-Air and DiT-Air-Lite. With supervised and reward fine-tuning, DiT-Air achieves state-of-the-art performance on GenEval and T2I CompBench, while DiT-Air-Lite remains highly competitive, surpassing most existing models despite its compact size.

Summary

AI-Generated Summary

PDF172March 14, 2025