Qihoo-T2X: Эффективно ориентированный трансформер диффузии с использованием прокси-токенов для текст-к-любой-задаче

Аннотация

Глобальный механизм самовнимания в диффузионных трансформерах включает в себя избыточные вычисления из-за разреженной и избыточной природы визуальной информации, и карта внимания токенов в пределах пространственного окна показывает значительную схожесть. Для решения этой избыточности мы предлагаем Прокси-Токен Диффузионный Трансформер (PT-DiT), который использует разреженное представительное внимание к токенам (где количество представительных токенов значительно меньше общего количества токенов) для эффективного моделирования глобальной визуальной информации. Конкретно, в каждом блоке трансформера мы случайным образом выбираем один токен из каждого пространственно-временного окна для службы в качестве прокси-токена для этого региона. Глобальная семантика захватывается через самовнимание этих прокси-токенов, а затем внедряется во все латентные токены через перекрестное внимание. Одновременно мы вводим оконное и сдвиговое оконное внимание для решения ограничений в детальном моделировании, вызванных разреженным механизмом внимания. На основе хорошо спроектированного PT-DiT мы дальше развиваем семейство Qihoo-T2X, которое включает в себя различные модели для задач T2I, T2V и T2MV. Экспериментальные результаты показывают, что PT-DiT достигает конкурентоспособной производительности, снижая вычислительную сложность как в задачах генерации изображений, так и видео (например, снижение на 48% по сравнению с DiT и на 35% по сравнению с Pixart-alpha). Наш исходный код доступен по адресу https://github.com/360CVGroup/Qihoo-T2X.

English

The global self-attention mechanism in diffusion transformers involves redundant computation due to the sparse and redundant nature of visual information, and the attention map of tokens within a spatial window shows significant similarity. To address this redundancy, we propose the Proxy Token Diffusion Transformer (PT-DiT), which employs sparse representative token attention (where the number of representative tokens is much smaller than the total number of tokens) to model global visual information efficiently. Specifically, in each transformer block, we randomly sample one token from each spatial-temporal window to serve as a proxy token for that region. The global semantics are captured through the self-attention of these proxy tokens and then injected into all latent tokens via cross-attention. Simultaneously, we introduce window and shift window attention to address the limitations in detail modeling caused by the sparse attention mechanism. Building on the well-designed PT-DiT, we further develop the Qihoo-T2X family, which includes a variety of models for T2I, T2V, and T2MV tasks. Experimental results show that PT-DiT achieves competitive performance while reducing the computational complexity in both image and video generation tasks (e.g., a 48% reduction compared to DiT and a 35% reduction compared to Pixart-alpha). Our source code is available at https://github.com/360CVGroup/Qihoo-T2X.

Qihoo-T2X: Эффективно ориентированный трансформер диффузии с использованием прокси-токенов для текст-к-любой-задаче

Qihoo-T2X: An Efficiency-Focused Diffusion Transformer via Proxy Tokens for Text-to-Any-Task

Аннотация

Support