Qihoo-T2X: プロキシトークンを介した効率重視の拡散トランスフォーマー テキストから任意のタスクへ

Qihoo-T2X: An Efficiency-Focused Diffusion Transformer via Proxy Tokens for Text-to-Any-Task

September 6, 2024
著者: Jing Wang, Ao Ma, Jiasong Feng, Dawei Leng, Yuhui Yin, Xiaodan Liang
cs.AI

要旨

拡散トランスフォーマーにおけるグローバルセルフアテンションメカニズムは、視覚情報の疎で冗長な性質による冗長な計算を含んでおり、空間ウィンドウ内のトークンのアテンションマップは顕著な類似性を示します。この冗長性に対処するために、私たちはプロキシトークン拡散トランスフォーマー(PT-DiT)を提案しています。PT-DiTは、グローバルな視覚情報を効率的にモデル化するために、疎な代表トークンアテンション(代表トークンの数がトークンの総数よりもはるかに少ない)を採用しています。具体的には、各トランスフォーマーブロックでは、各空間・時間ウィンドウからランダムに1つのトークンをサンプリングしてその領域のプロキシトークンとして使用します。これらのプロキシトークンのセルフアテンションによってグローバルな意味が捉えられ、その後、クロスアテンションを介してすべての潜在トークンに注入されます。同時に、疎なアテンションメカニズムによる詳細モデリングの制限に対処するために、ウィンドウアテンションとシフトウィンドウアテンションを導入しています。設計が行き届いたPT-DiTを基盤として、T2I、T2V、T2MVタスク向けの様々なモデルを含むQihoo-T2Xファミリーをさらに開発しています。実験結果は、PT-DiTが画像およびビデオ生成タスクにおいて計算複雑性を削減しつつ競争力のあるパフォーマンスを達成していることを示しています(例:DiTと比較して48%、Pixart-alphaと比較して35%の削減)。ソースコードはhttps://github.com/360CVGroup/Qihoo-T2X で入手可能です。
English
The global self-attention mechanism in diffusion transformers involves redundant computation due to the sparse and redundant nature of visual information, and the attention map of tokens within a spatial window shows significant similarity. To address this redundancy, we propose the Proxy Token Diffusion Transformer (PT-DiT), which employs sparse representative token attention (where the number of representative tokens is much smaller than the total number of tokens) to model global visual information efficiently. Specifically, in each transformer block, we randomly sample one token from each spatial-temporal window to serve as a proxy token for that region. The global semantics are captured through the self-attention of these proxy tokens and then injected into all latent tokens via cross-attention. Simultaneously, we introduce window and shift window attention to address the limitations in detail modeling caused by the sparse attention mechanism. Building on the well-designed PT-DiT, we further develop the Qihoo-T2X family, which includes a variety of models for T2I, T2V, and T2MV tasks. Experimental results show that PT-DiT achieves competitive performance while reducing the computational complexity in both image and video generation tasks (e.g., a 48% reduction compared to DiT and a 35% reduction compared to Pixart-alpha). Our source code is available at https://github.com/360CVGroup/Qihoo-T2X.

Summary

AI-Generated Summary

PDF194November 16, 2024