關鍵標記至關重要:標記級對比估計增強了語言模型的推理能力。Critical Tokens Matter: Token-Level Contrastive Estimation Enhence LLM's
Reasoning Capability
大型語言模型(LLMs)在推理任務上展現出卓越的表現。它們利用自回歸標記生成來構建推理軌跡,從而促使一個連貫的思維鏈的發展。在這項工作中,我們探討個別標記對推理任務最終結果的影響。我們確定了在LLMs中導致不正確推理軌跡的「關鍵標記」的存在。具體而言,我們發現當LLMs被迫解碼其他標記而不是關鍵標記時,它們往往會產生正面結果。受到這一觀察的啟發,我們提出了一種新方法 - cDPO - 旨在在對齊過程中自動識別並對關鍵標記進行標記級獎勵。具體而言,我們開發了一種對比估計方法,用於自動識別關鍵標記。通過比較正面和負面模型的生成概率,實現了這一點。為了實現這一目標,我們分別對正面和負面模型在各種推理軌跡上進行了微調,因此,它們能夠識別不正確軌跡中導致錯誤結果的關鍵標記。此外,為了在對齊過程中進一步使模型與關鍵標記信息保持一致,我們將傳統的DPO算法擴展為標記級DPO,並利用上述正面和負面模型的差異概率作為標記級DPO學習的重要權重。在GSM8K和MATH500基準測試上,使用兩個廣泛使用的模型Llama-3(8B和70B)和deepseek-math(7B)進行的實驗結果展示了所提出的方法cDPO的有效性。