RelaCtrl: Controllo Efficiente Guidato dalla Rilevanza per Trasformatori Diffusivi
RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers
February 20, 2025
Autori: Ke Cao, Jing Wang, Ao Ma, Jiasong Feng, Zhanjie Zhang, Xuanhua He, Shanyuan Liu, Bo Cheng, Dawei Leng, Yuhui Yin, Jie Zhang
cs.AI
Abstract
Il Diffusion Transformer svolge un ruolo fondamentale nel progresso della generazione da testo a immagine e da testo a video, principalmente grazie alla sua scalabilità intrinseca. Tuttavia, i metodi esistenti di diffusion transformer controllati comportano un significativo sovraccarico di parametri e computazionale e soffrono di un'allocazione inefficiente delle risorse a causa della mancata considerazione della rilevanza variabile delle informazioni di controllo attraverso i diversi strati del transformer. Per affrontare questo problema, proponiamo il framework di Generazione Controllata Efficiente Guidata dalla Rilevanza, RelaCtrl, che consente un'integrazione efficiente e ottimizzata delle risorse dei segnali di controllo nel Diffusion Transformer. In primo luogo, valutiamo la rilevanza di ciascuno strato del Diffusion Transformer rispetto alle informazioni di controllo attraverso il "ControlNet Relevance Score", ovvero l'impatto del salto di ciascuno strato di controllo sia sulla qualità della generazione che sull'efficacia del controllo durante l'inferenza. Sulla base della forza della rilevanza, adattiamo quindi il posizionamento, la scala dei parametri e la capacità di modellazione degli strati di controllo per ridurre i parametri non necessari e le computazioni ridondanti. Inoltre, per migliorare ulteriormente l'efficienza, sostituiamo il self-attention e la FFN nel blocco di copia comunemente utilizzato con il Two-Dimensional Shuffle Mixer (TDSM), progettato con cura, consentendo un'implementazione efficiente sia del token mixer che del channel mixer. I risultati sperimentali qualitativi e quantitativi dimostrano che il nostro approccio raggiunge prestazioni superiori con solo il 15% dei parametri e della complessità computazionale rispetto a PixArt-delta. Ulteriori esempi sono disponibili su https://relactrl.github.io/RelaCtrl/.
English
The Diffusion Transformer plays a pivotal role in advancing text-to-image and
text-to-video generation, owing primarily to its inherent scalability. However,
existing controlled diffusion transformer methods incur significant parameter
and computational overheads and suffer from inefficient resource allocation due
to their failure to account for the varying relevance of control information
across different transformer layers. To address this, we propose the
Relevance-Guided Efficient Controllable Generation framework, RelaCtrl,
enabling efficient and resource-optimized integration of control signals into
the Diffusion Transformer. First, we evaluate the relevance of each layer in
the Diffusion Transformer to the control information by assessing the
"ControlNet Relevance Score"-i.e., the impact of skipping each control layer on
both the quality of generation and the control effectiveness during inference.
Based on the strength of the relevance, we then tailor the positioning,
parameter scale, and modeling capacity of the control layers to reduce
unnecessary parameters and redundant computations. Additionally, to further
improve efficiency, we replace the self-attention and FFN in the commonly used
copy block with the carefully designed Two-Dimensional Shuffle Mixer (TDSM),
enabling efficient implementation of both the token mixer and channel mixer.
Both qualitative and quantitative experimental results demonstrate that our
approach achieves superior performance with only 15% of the parameters and
computational complexity compared to PixArt-delta. More examples are available
at https://relactrl.github.io/RelaCtrl/.Summary
AI-Generated Summary