ChatPaper.aiChatPaper

SALAD: Lograr Atención de Alta Dispersión mediante Sintonización Eficiente de Atención Lineal para Transformadores de Difusión de Video

SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

January 23, 2026
Autores: Tongcheng Fang, Hanling Zhang, Ruiqi Xie, Zhuo Han, Xin Tao, Tianchen Zhao, Pengfei Wan, Wenbo Ding, Wanli Ouyang, Xuefei Ning, Yu Wang
cs.AI

Resumen

Los Transformadores de Difusión han demostrado recientemente un rendimiento notable en la generación de videos. Sin embargo, las secuencias de entrada largas resultan en una alta latencia computacional debido a la complejidad cuadrática de la atención completa. Se han propuesto varios mecanismos de atención dispersa. La atención dispersa sin entrenamiento está limitada por una dispersión reducida y, por lo tanto, ofrece una aceleración modesta, mientras que los métodos basados en entrenamiento pueden alcanzar una dispersión mucho mayor pero requieren sustanciales datos y computación para el entrenamiento. En este trabajo, proponemos SALAD, introduciendo una rama de atención lineal ligera en paralelo con la atención dispersa. Al incorporar un mecanismo de compuerta dependiente de la entrada para equilibrar finamente las dos ramas, nuestro método alcanza un 90% de dispersión y una aceleración de la inferencia de 1.72x, manteniendo una calidad de generación comparable con la línea base de atención completa. Además, nuestro proceso de ajuste fino es altamente eficiente, requiriendo solo 2,000 muestras de video y 1,600 pasos de entrenamiento con un tamaño de lote de 8.
English
Diffusion Transformers have recently demonstrated remarkable performance in video generation. However, the long input sequences result in high computational latency due to the quadratic complexity of full attention. Various sparse attention mechanisms have been proposed. Training-free sparse attention is constrained by limited sparsity and thus offers modest acceleration, whereas training-based methods can reach much higher sparsity but demand substantial data and computation for training. In this work, we propose SALAD, introducing a lightweight linear attention branch in parallel with the sparse attention. By incorporating an input-dependent gating mechanism to finely balance the two branches, our method attains 90% sparsity and 1.72x inference speedup, while maintaining generation quality comparable to the full attention baseline. Moreover, our finetuning process is highly efficient, requiring only 2,000 video samples and 1,600 training steps with a batch size of 8.
PDF112January 27, 2026