DiT-Air: Rivalutazione dell'Efficienza della Progettazione Architetturale dei Modelli di Diffusione nella Generazione di Immagini da Testo
DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation
March 13, 2025
Autori: Chen Chen, Rui Qian, Wenze Hu, Tsu-Jui Fu, Lezhi Li, Bowen Zhang, Alex Schwing, Wei Liu, Yinfei Yang
cs.AI
Abstract
In questo lavoro, studiamo empiricamente i Diffusion Transformers (DiT) per la generazione di immagini da testo, concentrandoci sulle scelte architetturali, le strategie di condizionamento testuale e i protocolli di addestramento. Valutiamo una gamma di architetture basate su DiT—inclusi varianti in stile PixArt e MMDiT—e le confrontiamo con una variante standard di DiT che elabora direttamente input concatenati di testo e rumore. Sorprendentemente, i nostri risultati rivelano che le prestazioni del DiT standard sono comparabili a quelle dei modelli specializzati, dimostrando al contempo una superiore efficienza parametrica, specialmente quando scalati. Sfruttando la strategia di condivisione parametrica strato per strato, otteniamo un'ulteriore riduzione del 66% nelle dimensioni del modello rispetto a un'architettura MMDiT, con un impatto minimo sulle prestazioni. Basandoci su un'analisi approfondita di componenti critici come gli encoder di testo e i Variational Auto-Encoders (VAE), introduciamo DiT-Air e DiT-Air-Lite. Con un fine-tuning supervisionato e basato su ricompensa, DiT-Air raggiunge prestazioni all'avanguardia su GenEval e T2I CompBench, mentre DiT-Air-Lite rimane altamente competitivo, superando la maggior parte dei modelli esistenti nonostante le sue dimensioni compatte.
English
In this work, we empirically study Diffusion Transformers (DiTs) for
text-to-image generation, focusing on architectural choices, text-conditioning
strategies, and training protocols. We evaluate a range of DiT-based
architectures--including PixArt-style and MMDiT variants--and compare them with
a standard DiT variant which directly processes concatenated text and noise
inputs. Surprisingly, our findings reveal that the performance of standard DiT
is comparable with those specialized models, while demonstrating superior
parameter-efficiency, especially when scaled up. Leveraging the layer-wise
parameter sharing strategy, we achieve a further reduction of 66% in model size
compared to an MMDiT architecture, with minimal performance impact. Building on
an in-depth analysis of critical components such as text encoders and
Variational Auto-Encoders (VAEs), we introduce DiT-Air and DiT-Air-Lite. With
supervised and reward fine-tuning, DiT-Air achieves state-of-the-art
performance on GenEval and T2I CompBench, while DiT-Air-Lite remains highly
competitive, surpassing most existing models despite its compact size.