ChatPaper.aiChatPaper

SageAttention3: Mikroskalierung der FP4-Attention für Inferenz und eine Untersuchung des 8-Bit-Trainings

SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-Bit Training

May 16, 2025
Autoren: Jintao Zhang, Jia Wei, Pengle Zhang, Xiaoming Xu, Haofeng Huang, Haoxu Wang, Kai Jiang, Jun Zhu, Jianfei Chen
cs.AI

Zusammenfassung

Die Effizienz der Aufmerksamkeit ist aufgrund ihrer quadratischen Zeitkomplexität von großer Bedeutung. Wir verbessern die Effizienz der Aufmerksamkeit durch zwei wesentliche Beiträge: Erstens nutzen wir die neuen FP4-Tensor-Cores in Blackwell-GPUs, um die Berechnung der Aufmerksamkeit zu beschleunigen. Unsere Implementierung erreicht 1038 TOPS auf der RTX5090, was einer 5-fachen Beschleunigung gegenüber der schnellsten FlashAttention auf der RTX5090 entspricht. Experimente zeigen, dass unsere FP4-Aufmerksamkeit die Inferenz verschiedener Modelle auf Plug-and-Play-Weise beschleunigen kann. Zweitens führen wir Low-Bit-Aufmerksamkeit in Trainingsaufgaben ein. Bisherige Arbeiten zu Low-Bit-Aufmerksamkeit wie FlashAttention3 und SageAttention konzentrieren sich nur auf die Inferenz. Die Effizienz beim Training großer Modelle ist jedoch ebenfalls wichtig. Um zu untersuchen, ob Low-Bit-Aufmerksamkeit effektiv auf Trainingsaufgaben angewendet werden kann, entwickeln wir eine präzise und effiziente 8-Bit-Aufmerksamkeit für sowohl die Vorwärts- als auch die Rückwärtspropagation. Experimente zeigen, dass 8-Bit-Aufmerksamkeit in Feinabstimmungsaufgaben verlustfreie Leistung erzielt, jedoch in Vorabtrainingsaufgaben eine langsamere Konvergenz aufweist. Der Code wird unter https://github.com/thu-ml/SageAttention verfügbar sein.
English
The efficiency of attention is important due to its quadratic time complexity. We enhance the efficiency of attention through two key contributions: First, we leverage the new FP4 Tensor Cores in Blackwell GPUs to accelerate attention computation. Our implementation achieves 1038 TOPS on RTX5090, which is a 5x speedup over the fastest FlashAttention on RTX5090. Experiments show that our FP4 attention can accelerate inference of various models in a plug-and-play way. Second, we pioneer low-bit attention to training tasks. Existing low-bit attention works like FlashAttention3 and SageAttention focus only on inference. However, the efficiency of training large models is also important. To explore whether low-bit attention can be effectively applied to training tasks, we design an accurate and efficient 8-bit attention for both forward and backward propagation. Experiments indicate that 8-bit attention achieves lossless performance in fine-tuning tasks but exhibits slower convergence in pretraining tasks. The code will be available at https://github.com/thu-ml/SageAttention.

Summary

AI-Generated Summary

PDF431May 21, 2025