SALAD : Atteindre une Attention Hautement Creuse via un Réglage Efficace de l'Attention Linéaire pour les Transformers de Diffusion Vidéo

Résumé

Les Transformers à diffusion ont récemment démontré des performances remarquables en génération vidéo. Cependant, les longues séquences d'entrée entraînent une latence computationnelle élevée en raison de la complexité quadratique de l'attention complète. Divers mécanismes d'attention parcimonieuse ont été proposés. L'attention parcimonieuse sans entraînement est limitée par une parcimonie réduite et n'offre qu'une accélération modeste, tandis que les méthodes nécessitant un entraînement peuvent atteindre une bien plus grande parcimonie mais exigent des données et des calculs substantiels. Dans ce travail, nous proposons SALAD, introduisant une branche d'attention linéaire légère en parallèle de l'attention parcimonieuse. En incorporant un mécanisme de gating dépendant de l'entrée pour équilibrer finement les deux branches, notre méthode atteint 90 % de parcimonie et une accélération de l'inférence de 1,72×, tout en maintenant une qualité de génération comparable à la baseline en attention complète. De plus, notre processus de réglage fin est très efficace, nécessitant seulement 2 000 échantillons vidéo et 1 600 étapes d'entraînement avec une taille de lot de 8.

English

Diffusion Transformers have recently demonstrated remarkable performance in video generation. However, the long input sequences result in high computational latency due to the quadratic complexity of full attention. Various sparse attention mechanisms have been proposed. Training-free sparse attention is constrained by limited sparsity and thus offers modest acceleration, whereas training-based methods can reach much higher sparsity but demand substantial data and computation for training. In this work, we propose SALAD, introducing a lightweight linear attention branch in parallel with the sparse attention. By incorporating an input-dependent gating mechanism to finely balance the two branches, our method attains 90% sparsity and 1.72x inference speedup, while maintaining generation quality comparable to the full attention baseline. Moreover, our finetuning process is highly efficient, requiring only 2,000 video samples and 1,600 training steps with a batch size of 8.

SALAD : Atteindre une Attention Hautement Creuse via un Réglage Efficace de l'Attention Linéaire pour les Transformers de Diffusion Vidéo

SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

Résumé

Support