Belangrijke Tokens Doen Ertoe: Token-Niveau Contrastieve Schatting Verbetert de Redeneervaardigheid van LLM's
Critical Tokens Matter: Token-Level Contrastive Estimation Enhence LLM's Reasoning Capability
November 29, 2024
Auteurs: Zicheng Lin, Tian Liang, Jiahao Xu, Xing Wang, Ruilin Luo, Chufan Shi, Siheng Li, Yujiu Yang, Zhaopeng Tu
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) hebben opmerkelijke prestaties vertoond bij redeneertaken. Ze maken gebruik van autoregressieve token-generatie om redeneertrajecten te construeren, waardoor de ontwikkeling van een coherente keten van gedachten mogelijk wordt. In dit werk onderzoeken we de impact van individuele tokens op de uiteindelijke resultaten van redeneertaken. We identificeren het bestaan van "kritieke tokens" die leiden tot onjuiste redeneertrajecten in LLM's. Specifiek vinden we dat LLM's geneigd zijn positieve resultaten te produceren wanneer ze gedwongen worden andere tokens te decoderen in plaats van kritieke tokens. Gemotiveerd door deze observatie stellen we een nieuwe benadering voor - cDPO - ontworpen om automatisch kritieke tokens te herkennen en tokenniveau-beloningen uit te voeren tijdens het afstemmingsproces. Specifiek ontwikkelen we een contrastieve schattingsbenadering om kritieke tokens automatisch te identificeren. Dit wordt bereikt door de generatiekans van positieve en negatieve modellen met elkaar te vergelijken. Om dit te bereiken, stemmen we de positieve en negatieve modellen afzonderlijk af op verschillende redeneertrajecten, waardoor ze in staat zijn kritieke tokens te identificeren binnen onjuiste trajecten die bijdragen aan foutieve resultaten. Bovendien, om het model verder af te stemmen op de informatie van de kritieke tokens tijdens het afstemmingsproces, breiden we de conventionele DPO-algoritmen uit naar tokenniveau DPO en gebruiken we het differentiële kansheidsverschil van het eerder genoemde positieve en negatieve model als belangrijk gewicht voor tokenniveau DPO-leren. Experimentele resultaten op GSM8K en MATH500 benchmarks met twee veelgebruikte modellen Llama-3 (8B en 70B) en deepseek-math (7B) tonen de effectiviteit van de voorgestelde benadering cDPO aan.
English
Large Language Models (LLMs) have exhibited remarkable performance on
reasoning tasks. They utilize autoregressive token generation to construct
reasoning trajectories, enabling the development of a coherent chain of
thought. In this work, we explore the impact of individual tokens on the final
outcomes of reasoning tasks. We identify the existence of ``critical tokens''
that lead to incorrect reasoning trajectories in LLMs. Specifically, we find
that LLMs tend to produce positive outcomes when forced to decode other tokens
instead of critical tokens. Motivated by this observation, we propose a novel
approach - cDPO - designed to automatically recognize and conduct token-level
rewards for the critical tokens during the alignment process. Specifically, we
develop a contrastive estimation approach to automatically identify critical
tokens. It is achieved by comparing the generation likelihood of positive and
negative models. To achieve this, we separately fine-tune the positive and
negative models on various reasoning trajectories, consequently, they are
capable of identifying identify critical tokens within incorrect trajectories
that contribute to erroneous outcomes. Moreover, to further align the model
with the critical token information during the alignment process, we extend the
conventional DPO algorithms to token-level DPO and utilize the differential
likelihood from the aforementioned positive and negative model as important
weight for token-level DPO learning.Experimental results on GSM8K and MATH500
benchmarks with two-widely used models Llama-3 (8B and 70B) and deepseek-math
(7B) demonstrate the effectiveness of the propsoed approach cDPO.