DiT-Air: Rivalutazione dell'Efficienza della Progettazione Architetturale dei Modelli di Diffusione nella Generazione di Immagini da Testo

Abstract

In questo lavoro, studiamo empiricamente i Diffusion Transformers (DiT) per la generazione di immagini da testo, concentrandoci sulle scelte architetturali, le strategie di condizionamento testuale e i protocolli di addestramento. Valutiamo una gamma di architetture basate su DiT—inclusi varianti in stile PixArt e MMDiT—e le confrontiamo con una variante standard di DiT che elabora direttamente input concatenati di testo e rumore. Sorprendentemente, i nostri risultati rivelano che le prestazioni del DiT standard sono comparabili a quelle dei modelli specializzati, dimostrando al contempo una superiore efficienza parametrica, specialmente quando scalati. Sfruttando la strategia di condivisione parametrica strato per strato, otteniamo un'ulteriore riduzione del 66% nelle dimensioni del modello rispetto a un'architettura MMDiT, con un impatto minimo sulle prestazioni. Basandoci su un'analisi approfondita di componenti critici come gli encoder di testo e i Variational Auto-Encoders (VAE), introduciamo DiT-Air e DiT-Air-Lite. Con un fine-tuning supervisionato e basato su ricompensa, DiT-Air raggiunge prestazioni all'avanguardia su GenEval e T2I CompBench, mentre DiT-Air-Lite rimane altamente competitivo, superando la maggior parte dei modelli esistenti nonostante le sue dimensioni compatte.

English

In this work, we empirically study Diffusion Transformers (DiTs) for text-to-image generation, focusing on architectural choices, text-conditioning strategies, and training protocols. We evaluate a range of DiT-based architectures--including PixArt-style and MMDiT variants--and compare them with a standard DiT variant which directly processes concatenated text and noise inputs. Surprisingly, our findings reveal that the performance of standard DiT is comparable with those specialized models, while demonstrating superior parameter-efficiency, especially when scaled up. Leveraging the layer-wise parameter sharing strategy, we achieve a further reduction of 66% in model size compared to an MMDiT architecture, with minimal performance impact. Building on an in-depth analysis of critical components such as text encoders and Variational Auto-Encoders (VAEs), we introduce DiT-Air and DiT-Air-Lite. With supervised and reward fine-tuning, DiT-Air achieves state-of-the-art performance on GenEval and T2I CompBench, while DiT-Air-Lite remains highly competitive, surpassing most existing models despite its compact size.

DiT-Air: Rivalutazione dell'Efficienza della Progettazione Architetturale dei Modelli di Diffusione nella Generazione di Immagini da Testo

DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation

Abstract

Support