Qihoo-T2X: 효율 중심의 Proxy 토큰을 통한 확산 트랜스포머(Text-to-Any-Task를 위한)
Qihoo-T2X: An Efficiency-Focused Diffusion Transformer via Proxy Tokens for Text-to-Any-Task
September 6, 2024
저자: Jing Wang, Ao Ma, Jiasong Feng, Dawei Leng, Yuhui Yin, Xiaodan Liang
cs.AI
초록
확산 트랜스포머의 글로벌 셀프 어텐션 메커니즘은 시각 정보의 희소하고 중복적인 성격으로 인해 중복 계산을 포함하며, 공간 창 내의 토큰들의 어텐션 맵은 상당한 유사성을 보여줍니다. 이러한 중복성을 해결하기 위해 우리는 프록시 토큰 확산 트랜스포머(PT-DiT)를 제안합니다. 이는 전역 시각 정보를 효율적으로 모델링하기 위해 토큰의 어텐션을 희소한 대표 토큰으로 사용합니다(대표 토큰의 수가 전체 토큰 수보다 훨씬 작음). 구체적으로, 각 트랜스포머 블록에서는 각 공간-시간 창에서 하나의 토큰을 무작위로 샘플링하여 해당 영역의 프록시 토큰으로 사용합니다. 이러한 프록시 토큰들의 셀프 어텐션을 통해 전역 의미론을 포착하고, 그것들을 모든 잠재 토큰에 교차 어텐션을 통해 주입합니다. 동시에, 희소한 어텐션 메커니즘에 의한 세부 모델링의 제한 사항을 해결하기 위해 창 및 시프트 창 어텐션을 도입합니다. 잘 설계된 PT-DiT를 기반으로하여, T2I, T2V 및 T2MV 작업을 위한 다양한 모델을 포함하는 Qihoo-T2X 패밀리를 추가로 개발합니다. 실험 결과는 PT-DiT가 이미지 및 비디오 생성 작업에서 계산 복잡성을 줄이면서 경쟁력 있는 성능을 달성한다는 것을 보여줍니다(예: DiT 대비 48% 감소 및 Pixart-alpha 대비 35% 감소). 소스 코드는 https://github.com/360CVGroup/Qihoo-T2X에서 확인할 수 있습니다.
English
The global self-attention mechanism in diffusion transformers involves
redundant computation due to the sparse and redundant nature of visual
information, and the attention map of tokens within a spatial window shows
significant similarity. To address this redundancy, we propose the Proxy Token
Diffusion Transformer (PT-DiT), which employs sparse representative token
attention (where the number of representative tokens is much smaller than the
total number of tokens) to model global visual information efficiently.
Specifically, in each transformer block, we randomly sample one token from each
spatial-temporal window to serve as a proxy token for that region. The global
semantics are captured through the self-attention of these proxy tokens and
then injected into all latent tokens via cross-attention. Simultaneously, we
introduce window and shift window attention to address the limitations in
detail modeling caused by the sparse attention mechanism. Building on the
well-designed PT-DiT, we further develop the Qihoo-T2X family, which includes a
variety of models for T2I, T2V, and T2MV tasks. Experimental results show that
PT-DiT achieves competitive performance while reducing the computational
complexity in both image and video generation tasks (e.g., a 48% reduction
compared to DiT and a 35% reduction compared to Pixart-alpha). Our source code
is available at https://github.com/360CVGroup/Qihoo-T2X.Summary
AI-Generated Summary