Qihoo-T2X: Um Transformador de Difusão Focado na Eficiência via Tokens de Proxy para Texto-para-Qualquer-Tarefa

Resumo

O mecanismo global de autoatenção nos transformadores de difusão envolve computação redundante devido à natureza esparsa e redundante das informações visuais, e o mapa de atenção dos tokens dentro de uma janela espacial mostra uma similaridade significativa. Para lidar com essa redundância, propomos o Transformador de Difusão de Token de Proxy (PT-DiT), que emprega atenção a tokens representativos esparsos (onde o número de tokens representativos é muito menor que o número total de tokens) para modelar informações visuais globais de forma eficiente. Especificamente, em cada bloco do transformador, amostramos aleatoriamente um token de cada janela espaço-temporal para servir como um token de proxy para aquela região. A semântica global é capturada por meio da autoatenção desses tokens de proxy e então injetada em todos os tokens latentes via interatenção. Simultaneamente, introduzimos atenção de janela e atenção de deslocamento de janela para lidar com as limitações no modelamento detalhado causadas pelo mecanismo de atenção esparsa. Com base no bem projetado PT-DiT, desenvolvemos ainda a família Qihoo-T2X, que inclui uma variedade de modelos para tarefas T2I, T2V e T2MV. Resultados experimentais mostram que o PT-DiT alcança desempenho competitivo ao reduzir a complexidade computacional em tarefas de geração de imagens e vídeos (por exemplo, uma redução de 48% em comparação com o DiT e uma redução de 35% em comparação com o Pixart-alpha). Nosso código-fonte está disponível em https://github.com/360CVGroup/Qihoo-T2X.

English

The global self-attention mechanism in diffusion transformers involves redundant computation due to the sparse and redundant nature of visual information, and the attention map of tokens within a spatial window shows significant similarity. To address this redundancy, we propose the Proxy Token Diffusion Transformer (PT-DiT), which employs sparse representative token attention (where the number of representative tokens is much smaller than the total number of tokens) to model global visual information efficiently. Specifically, in each transformer block, we randomly sample one token from each spatial-temporal window to serve as a proxy token for that region. The global semantics are captured through the self-attention of these proxy tokens and then injected into all latent tokens via cross-attention. Simultaneously, we introduce window and shift window attention to address the limitations in detail modeling caused by the sparse attention mechanism. Building on the well-designed PT-DiT, we further develop the Qihoo-T2X family, which includes a variety of models for T2I, T2V, and T2MV tasks. Experimental results show that PT-DiT achieves competitive performance while reducing the computational complexity in both image and video generation tasks (e.g., a 48% reduction compared to DiT and a 35% reduction compared to Pixart-alpha). Our source code is available at https://github.com/360CVGroup/Qihoo-T2X.

Qihoo-T2X: Um Transformador de Difusão Focado na Eficiência via Tokens de Proxy para Texto-para-Qualquer-Tarefa

Qihoo-T2X: An Efficiency-Focused Diffusion Transformer via Proxy Tokens for Text-to-Any-Task

Resumo

Support