微分變壓器Differential Transformer
Transformer 傾向於對無關上下文過度分配注意力。在這項研究中,我們引入了 Diff Transformer,該模型在放大相關上下文的同時抑制噪音。具體來說,差分注意力機制計算注意力分數作為兩個獨立 softmax 注意力地圖之間的差異。減法取消噪音,促進稀疏注意力模式的出現。在語言建模的實驗結果中顯示,Diff Transformer 在不同模型尺寸擴展和訓練標記的設置中優於 Transformer。更有趣的是,它在實際應用中提供了顯著的優勢,如長上下文建模、關鍵信息檢索、幻覺抑制、上下文學習和激活值的減少。由於對無關上下文的干擾較少,Diff Transformer 可以減輕問答和文本摘要中的幻覺。對於上下文學習,Diff Transformer 不僅提高了準確性,而且對於順序排列更為堅固,這被認為是一個長期的穩健性問題。這些結果將 Diff Transformer 定位為推進大型語言模型的高效且有前景的架構。