ChatPaper.aiChatPaper

Qihoo-T2X: Ein auf Effizienz ausgerichteter Diffusionstransformator mit Proxy-Token für Text-zu-beliebiger-Aufgabe.

Qihoo-T2X: An Efficiency-Focused Diffusion Transformer via Proxy Tokens for Text-to-Any-Task

September 6, 2024
Autoren: Jing Wang, Ao Ma, Jiasong Feng, Dawei Leng, Yuhui Yin, Xiaodan Liang
cs.AI

Zusammenfassung

Der globale Selbst-Aufmerksamkeitsmechanismus in Diffusions-Transformern beinhaltet redundante Berechnungen aufgrund der spärlichen und redundanten Natur visueller Informationen, und die Aufmerksamkeitskarte von Tokens innerhalb eines räumlichen Fensters zeigt eine signifikante Ähnlichkeit. Um diese Redundanz zu adressieren, schlagen wir den Proxy-Token-Diffusions-Transformer (PT-DiT) vor, der eine spärliche repräsentative Token-Aufmerksamkeit (wobei die Anzahl der repräsentativen Tokens wesentlich kleiner ist als die Gesamtanzahl der Tokens) verwendet, um globale visuelle Informationen effizient zu modellieren. Spezifisch wird in jedem Transformer-Block ein Token aus jedem räumlich-zeitlichen Fenster zufällig ausgewählt, um als Proxy-Token für diese Region zu dienen. Die globalen Semantiken werden durch die Selbst-Aufmerksamkeit dieser Proxy-Tokens erfasst und dann über Kreuz-Aufmerksamkeit in alle latenten Tokens injiziert. Gleichzeitig führen wir Fenster- und Verschiebungs-Fenster-Aufmerksamkeit ein, um den Einschränkungen im detaillierten Modellieren aufgrund des spärlichen Aufmerksamkeitsmechanismus entgegenzuwirken. Aufbauend auf dem gut durchdachten PT-DiT entwickeln wir die Qihoo-T2X-Familie weiter, die eine Vielzahl von Modellen für T2I-, T2V- und T2MV-Aufgaben umfasst. Experimentelle Ergebnisse zeigen, dass PT-DiT eine wettbewerbsfähige Leistung erzielt, während die Rechenkomplexität sowohl bei der Bild- als auch bei der Videogenerierung reduziert wird (z. B. eine Reduzierung um 48 % im Vergleich zu DiT und eine Reduzierung um 35 % im Vergleich zu Pixart-alpha). Unser Quellcode ist verfügbar unter https://github.com/360CVGroup/Qihoo-T2X.
English
The global self-attention mechanism in diffusion transformers involves redundant computation due to the sparse and redundant nature of visual information, and the attention map of tokens within a spatial window shows significant similarity. To address this redundancy, we propose the Proxy Token Diffusion Transformer (PT-DiT), which employs sparse representative token attention (where the number of representative tokens is much smaller than the total number of tokens) to model global visual information efficiently. Specifically, in each transformer block, we randomly sample one token from each spatial-temporal window to serve as a proxy token for that region. The global semantics are captured through the self-attention of these proxy tokens and then injected into all latent tokens via cross-attention. Simultaneously, we introduce window and shift window attention to address the limitations in detail modeling caused by the sparse attention mechanism. Building on the well-designed PT-DiT, we further develop the Qihoo-T2X family, which includes a variety of models for T2I, T2V, and T2MV tasks. Experimental results show that PT-DiT achieves competitive performance while reducing the computational complexity in both image and video generation tasks (e.g., a 48% reduction compared to DiT and a 35% reduction compared to Pixart-alpha). Our source code is available at https://github.com/360CVGroup/Qihoo-T2X.

Summary

AI-Generated Summary

PDF194November 16, 2024