Qihoo-T2X : Un Transformateur de Diffusion Axé sur l'Efficacité via Jetons Proxy pour la Conversion de Texte vers N'importe Quelle Tâche

Qihoo-T2X: An Efficiency-Focused Diffusion Transformer via Proxy Tokens for Text-to-Any-Task

September 6, 2024
Auteurs: Jing Wang, Ao Ma, Jiasong Feng, Dawei Leng, Yuhui Yin, Xiaodan Liang
cs.AI

Résumé

Le mécanisme d'auto-attention globale dans les transformateurs de diffusion implique une computation redondante en raison de la nature clairsemée et redondante de l'information visuelle, et la carte d'attention des jetons dans une fenêtre spatiale montre une similarité significative. Pour résoudre cette redondance, nous proposons le Transformateur de Diffusion à Jeton de Proximité (PT-DiT), qui utilise une attention de jeton représentatif clairsemée (où le nombre de jetons représentatifs est beaucoup plus petit que le nombre total de jetons) pour modéliser efficacement l'information visuelle globale. Plus précisément, dans chaque bloc de transformateur, nous échantillonnons de manière aléatoire un jeton de chaque fenêtre spatio-temporelle pour servir de jeton de proximité pour cette région. Les sémantiques globales sont capturées à travers l'auto-attention de ces jetons de proximité puis injectées dans tous les jetons latents via une attention croisée. Simultanément, nous introduisons une attention de fenêtre et de décalage de fenêtre pour résoudre les limitations dans la modélisation détaillée causée par le mécanisme d'attention clairsemée. En s'appuyant sur le PT-DiT bien conçu, nous développons ensuite la famille Qihoo-T2X, qui comprend une variété de modèles pour les tâches T2I, T2V et T2MV. Les résultats expérimentaux montrent que le PT-DiT atteint des performances compétitives tout en réduisant la complexité computationnelle dans les tâches de génération d'images et de vidéos (par exemple, une réduction de 48 % par rapport à DiT et une réduction de 35 % par rapport à Pixart-alpha). Notre code source est disponible sur https://github.com/360CVGroup/Qihoo-T2X.
English
The global self-attention mechanism in diffusion transformers involves redundant computation due to the sparse and redundant nature of visual information, and the attention map of tokens within a spatial window shows significant similarity. To address this redundancy, we propose the Proxy Token Diffusion Transformer (PT-DiT), which employs sparse representative token attention (where the number of representative tokens is much smaller than the total number of tokens) to model global visual information efficiently. Specifically, in each transformer block, we randomly sample one token from each spatial-temporal window to serve as a proxy token for that region. The global semantics are captured through the self-attention of these proxy tokens and then injected into all latent tokens via cross-attention. Simultaneously, we introduce window and shift window attention to address the limitations in detail modeling caused by the sparse attention mechanism. Building on the well-designed PT-DiT, we further develop the Qihoo-T2X family, which includes a variety of models for T2I, T2V, and T2MV tasks. Experimental results show that PT-DiT achieves competitive performance while reducing the computational complexity in both image and video generation tasks (e.g., a 48% reduction compared to DiT and a 35% reduction compared to Pixart-alpha). Our source code is available at https://github.com/360CVGroup/Qihoo-T2X.

Summary

AI-Generated Summary

PDF194November 16, 2024