Qihoo-T2X: プロキシトークンを介した効率重視の拡散トランスフォーマー テキストから任意のタスクへ
Qihoo-T2X: An Efficiency-Focused Diffusion Transformer via Proxy Tokens for Text-to-Any-Task
September 6, 2024
著者: Jing Wang, Ao Ma, Jiasong Feng, Dawei Leng, Yuhui Yin, Xiaodan Liang
cs.AI
要旨
拡散トランスフォーマーにおけるグローバルセルフアテンションメカニズムは、視覚情報の疎で冗長な性質による冗長な計算を含んでおり、空間ウィンドウ内のトークンのアテンションマップは顕著な類似性を示します。この冗長性に対処するために、私たちはプロキシトークン拡散トランスフォーマー(PT-DiT)を提案しています。PT-DiTは、グローバルな視覚情報を効率的にモデル化するために、疎な代表トークンアテンション(代表トークンの数がトークンの総数よりもはるかに少ない)を採用しています。具体的には、各トランスフォーマーブロックでは、各空間・時間ウィンドウからランダムに1つのトークンをサンプリングしてその領域のプロキシトークンとして使用します。これらのプロキシトークンのセルフアテンションによってグローバルな意味が捉えられ、その後、クロスアテンションを介してすべての潜在トークンに注入されます。同時に、疎なアテンションメカニズムによる詳細モデリングの制限に対処するために、ウィンドウアテンションとシフトウィンドウアテンションを導入しています。設計が行き届いたPT-DiTを基盤として、T2I、T2V、T2MVタスク向けの様々なモデルを含むQihoo-T2Xファミリーをさらに開発しています。実験結果は、PT-DiTが画像およびビデオ生成タスクにおいて計算複雑性を削減しつつ競争力のあるパフォーマンスを達成していることを示しています(例:DiTと比較して48%、Pixart-alphaと比較して35%の削減)。ソースコードはhttps://github.com/360CVGroup/Qihoo-T2X で入手可能です。
English
The global self-attention mechanism in diffusion transformers involves
redundant computation due to the sparse and redundant nature of visual
information, and the attention map of tokens within a spatial window shows
significant similarity. To address this redundancy, we propose the Proxy Token
Diffusion Transformer (PT-DiT), which employs sparse representative token
attention (where the number of representative tokens is much smaller than the
total number of tokens) to model global visual information efficiently.
Specifically, in each transformer block, we randomly sample one token from each
spatial-temporal window to serve as a proxy token for that region. The global
semantics are captured through the self-attention of these proxy tokens and
then injected into all latent tokens via cross-attention. Simultaneously, we
introduce window and shift window attention to address the limitations in
detail modeling caused by the sparse attention mechanism. Building on the
well-designed PT-DiT, we further develop the Qihoo-T2X family, which includes a
variety of models for T2I, T2V, and T2MV tasks. Experimental results show that
PT-DiT achieves competitive performance while reducing the computational
complexity in both image and video generation tasks (e.g., a 48% reduction
compared to DiT and a 35% reduction compared to Pixart-alpha). Our source code
is available at https://github.com/360CVGroup/Qihoo-T2X.Summary
AI-Generated Summary