SALAD: Alcançando Atenção de Alta Esparsidade via Sintonia Eficiente de Atenção Linear para Transformadores de Difusão em Vídeo

Resumo

Os Transformers de Difusão têm demonstrado recentemente um desempenho notável na geração de vídeo. No entanto, as longas sequências de entrada resultam em alta latência computacional devido à complexidade quadrática da atenção completa. Vários mecanismos de atenção esparsa foram propostos. A atenção esparsa sem necessidade de treinamento é limitada por uma esparsidade restrita, oferecendo assim uma aceleração modesta, enquanto os métodos baseados em treinamento podem alcançar uma esparsidade muito maior, mas exigem dados e computação substanciais para o treinamento. Neste trabalho, propomos o SALAD, introduzindo um ramo de atenção linear leve em paralelo com a atenção esparsa. Ao incorporar um mecanismo de ativação dependente da entrada para equilibrar finamente os dois ramos, nosso método atinge 90% de esparsidade e uma aceleração de inferência de 1,72x, mantendo uma qualidade de geração comparável à linha de base de atenção completa. Além disso, nosso processo de ajuste fino é altamente eficiente, exigindo apenas 2.000 amostras de vídeo e 1.600 etapas de treinamento com um tamanho de lote de 8.

English

Diffusion Transformers have recently demonstrated remarkable performance in video generation. However, the long input sequences result in high computational latency due to the quadratic complexity of full attention. Various sparse attention mechanisms have been proposed. Training-free sparse attention is constrained by limited sparsity and thus offers modest acceleration, whereas training-based methods can reach much higher sparsity but demand substantial data and computation for training. In this work, we propose SALAD, introducing a lightweight linear attention branch in parallel with the sparse attention. By incorporating an input-dependent gating mechanism to finely balance the two branches, our method attains 90% sparsity and 1.72x inference speedup, while maintaining generation quality comparable to the full attention baseline. Moreover, our finetuning process is highly efficient, requiring only 2,000 video samples and 1,600 training steps with a batch size of 8.

SALAD: Alcançando Atenção de Alta Esparsidade via Sintonia Eficiente de Atenção Linear para Transformadores de Difusão em Vídeo

SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

Resumo

Support