ChatPaper.aiChatPaper

Qihoo-T2X: Un Transformador de Difusión Centrado en la Eficiencia a través de Tokens Proxies para Texto-a-Cualquier-Tarea

Qihoo-T2X: An Efficiency-Focused Diffusion Transformer via Proxy Tokens for Text-to-Any-Task

September 6, 2024
Autores: Jing Wang, Ao Ma, Jiasong Feng, Dawei Leng, Yuhui Yin, Xiaodan Liang
cs.AI

Resumen

El mecanismo de autoatención global en los transformadores de difusión implica una computación redundante debido a la naturaleza dispersa y redundante de la información visual, y el mapa de atención de tokens dentro de una ventana espacial muestra una similitud significativa. Para abordar esta redundancia, proponemos el Transformador de Difusión de Token Proxy (PT-DiT), que emplea una atención de token representativo disperso (donde el número de tokens representativos es mucho menor que el número total de tokens) para modelar eficientemente la información visual global. Específicamente, en cada bloque del transformador, muestreamos aleatoriamente un token de cada ventana espacio-temporal para servir como token proxy para esa región. La semántica global se captura a través de la autoatención de estos tokens proxy y luego se inyecta en todos los tokens latentes a través de la atención cruzada. Simultáneamente, introducimos la atención de ventana y la atención de ventana desplazada para abordar las limitaciones en el modelado detallado causadas por el mecanismo de atención dispersa. Basándonos en el bien diseñado PT-DiT, desarrollamos además la familia Qihoo-T2X, que incluye una variedad de modelos para tareas T2I, T2V y T2MV. Los resultados experimentales muestran que PT-DiT logra un rendimiento competitivo al tiempo que reduce la complejidad computacional en tareas de generación de imágenes y videos (por ejemplo, una reducción del 48% en comparación con DiT y una reducción del 35% en comparación con Pixart-alpha). Nuestro código fuente está disponible en https://github.com/360CVGroup/Qihoo-T2X.
English
The global self-attention mechanism in diffusion transformers involves redundant computation due to the sparse and redundant nature of visual information, and the attention map of tokens within a spatial window shows significant similarity. To address this redundancy, we propose the Proxy Token Diffusion Transformer (PT-DiT), which employs sparse representative token attention (where the number of representative tokens is much smaller than the total number of tokens) to model global visual information efficiently. Specifically, in each transformer block, we randomly sample one token from each spatial-temporal window to serve as a proxy token for that region. The global semantics are captured through the self-attention of these proxy tokens and then injected into all latent tokens via cross-attention. Simultaneously, we introduce window and shift window attention to address the limitations in detail modeling caused by the sparse attention mechanism. Building on the well-designed PT-DiT, we further develop the Qihoo-T2X family, which includes a variety of models for T2I, T2V, and T2MV tasks. Experimental results show that PT-DiT achieves competitive performance while reducing the computational complexity in both image and video generation tasks (e.g., a 48% reduction compared to DiT and a 35% reduction compared to Pixart-alpha). Our source code is available at https://github.com/360CVGroup/Qihoo-T2X.

Summary

AI-Generated Summary

PDF194November 16, 2024