RelaCtrl: Relevantie-Gestuurde Efficiënte Controle voor Diffusie-Transformers
RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers
February 20, 2025
Auteurs: Ke Cao, Jing Wang, Ao Ma, Jiasong Feng, Zhanjie Zhang, Xuanhua He, Shanyuan Liu, Bo Cheng, Dawei Leng, Yuhui Yin, Jie Zhang
cs.AI
Samenvatting
De Diffusion Transformer speelt een cruciale rol in de vooruitgang van tekst-naar-beeld en tekst-naar-video generatie, voornamelijk vanwege zijn inherente schaalbaarheid. Bestaande methoden voor gecontroleerde diffusion transformers leiden echter tot aanzienlijke parameter- en rekenkosten en kampen met inefficiënte resourceallocatie, omdat ze geen rekening houden met de variërende relevantie van controle-informatie over verschillende transformer-lagen. Om dit aan te pakken, stellen we het Relevance-Guided Efficient Controllable Generation framework voor, RelaCtrl, dat een efficiënte en resource-geoptimaliseerde integratie van controlesignalen in de Diffusion Transformer mogelijk maakt. Eerst evalueren we de relevantie van elke laag in de Diffusion Transformer voor de controle-informatie door de "ControlNet Relevance Score" te beoordelen—dat wil zeggen, de impact van het overslaan van elke controlelaag op zowel de kwaliteit van de generatie als de controle-effectiviteit tijdens inferentie. Op basis van de sterkte van de relevantie passen we vervolgens de positionering, parameterschaal en modelleercapaciteit van de controlelagen aan om onnodige parameters en redundante berekeningen te verminderen. Daarnaast vervangen we, om de efficiëntie verder te verbeteren, de self-attention en FFN in het veelgebruikte copy block door de zorgvuldig ontworpen Two-Dimensional Shuffle Mixer (TDSM), wat een efficiënte implementatie van zowel de token mixer als de channel mixer mogelijk maakt. Zowel kwalitatieve als kwantitatieve experimentele resultaten tonen aan dat onze aanpak superieure prestaties bereikt met slechts 15% van de parameters en rekencomplexiteit in vergelijking met PixArt-delta. Meer voorbeelden zijn beschikbaar op https://relactrl.github.io/RelaCtrl/.
English
The Diffusion Transformer plays a pivotal role in advancing text-to-image and
text-to-video generation, owing primarily to its inherent scalability. However,
existing controlled diffusion transformer methods incur significant parameter
and computational overheads and suffer from inefficient resource allocation due
to their failure to account for the varying relevance of control information
across different transformer layers. To address this, we propose the
Relevance-Guided Efficient Controllable Generation framework, RelaCtrl,
enabling efficient and resource-optimized integration of control signals into
the Diffusion Transformer. First, we evaluate the relevance of each layer in
the Diffusion Transformer to the control information by assessing the
"ControlNet Relevance Score"-i.e., the impact of skipping each control layer on
both the quality of generation and the control effectiveness during inference.
Based on the strength of the relevance, we then tailor the positioning,
parameter scale, and modeling capacity of the control layers to reduce
unnecessary parameters and redundant computations. Additionally, to further
improve efficiency, we replace the self-attention and FFN in the commonly used
copy block with the carefully designed Two-Dimensional Shuffle Mixer (TDSM),
enabling efficient implementation of both the token mixer and channel mixer.
Both qualitative and quantitative experimental results demonstrate that our
approach achieves superior performance with only 15% of the parameters and
computational complexity compared to PixArt-delta. More examples are available
at https://relactrl.github.io/RelaCtrl/.Summary
AI-Generated Summary