加法是能夠提高語言模型能效的關鍵。Addition is All You Need for Energy-efficient Language Models
大型神經網絡在浮點張量乘法上花費了大部分計算。在這項工作中,我們發現浮點乘法器可以以高精度逼近一個整數加法器。我們提出了線性複雜度乘法 L-Mul 演算法,該演算法用整數加法運算逼近浮點數乘法。這種新演算法的計算資源成本顯著低於8位浮點乘法,但實現了更高的精度。與8位浮點乘法相比,該方法實現了更高的精度,但消耗的位元級計算明顯較少。由於浮點數相乘需要比整數加法運算更多的能量,將 L-Mul 運算應用於張量處理硬體可能通過逐元素浮點張量乘法減少95%的能量成本,以及減少80%的點積能量成本。我們計算了 L-Mul 的理論誤差期望值,並在廣泛的文本、視覺和符號任務上評估了該演算法,包括自然語言理解、結構推理、數學和常識問答。我們的數值分析實驗與理論誤差估計一致,表明具有4位尾數的 L-Mul 實現了與 float8_e4m3 乘法相當的精度,而具有3位尾數的 L-Mul 優於 float8_e5m2。對流行基準測試的評估結果顯示,將 L-Mul 直接應用於注意機制幾乎沒有損失。我們進一步展示,在變壓器模型中將所有浮點乘法替換為具有3位尾數的 L-Mul,在微調和推理中實現了與使用 float8_e4m3 作為累加精度相等的精度。