Tokens Críticos Importam: Estimação Contrastiva ao Nível do Token Aprimora a Capacidade de Raciocínio do LLM

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado um desempenho notável em tarefas de raciocínio. Eles utilizam a geração autoregressiva de tokens para construir trajetórias de raciocínio, permitindo o desenvolvimento de uma cadeia coerente de pensamento. Neste trabalho, exploramos o impacto de tokens individuais nos resultados finais de tarefas de raciocínio. Identificamos a existência de "tokens críticos" que levam a trajetórias de raciocínio incorretas em LLMs. Especificamente, descobrimos que os LLMs tendem a produzir resultados positivos quando forçados a decodificar outros tokens em vez dos tokens críticos. Motivados por essa observação, propomos uma abordagem inovadora - cDPO - projetada para reconhecer e realizar recompensas em nível de token para os tokens críticos durante o processo de alinhamento. Especificamente, desenvolvemos uma abordagem de estimação contrastiva para identificar automaticamente os tokens críticos. Isso é alcançado comparando a probabilidade de geração de modelos positivos e negativos. Para isso, ajustamos separadamente os modelos positivos e negativos em várias trajetórias de raciocínio, sendo capazes de identificar os tokens críticos dentro de trajetórias incorretas que contribuem para resultados errôneos. Além disso, para alinhar ainda mais o modelo com as informações dos tokens críticos durante o processo de alinhamento, estendemos os algoritmos DPO convencionais para DPO em nível de token e utilizamos a probabilidade diferencial dos modelos positivos e negativos mencionados anteriormente como peso importante para o aprendizado em nível de token do DPO. Resultados experimentais nos benchmarks GSM8K e MATH500 com os modelos amplamente utilizados Llama-3 (8B e 70B) e deepseek-math (7B) demonstram a eficácia da abordagem proposta cDPO.

English

Large Language Models (LLMs) have exhibited remarkable performance on reasoning tasks. They utilize autoregressive token generation to construct reasoning trajectories, enabling the development of a coherent chain of thought. In this work, we explore the impact of individual tokens on the final outcomes of reasoning tasks. We identify the existence of ``critical tokens'' that lead to incorrect reasoning trajectories in LLMs. Specifically, we find that LLMs tend to produce positive outcomes when forced to decode other tokens instead of critical tokens. Motivated by this observation, we propose a novel approach - cDPO - designed to automatically recognize and conduct token-level rewards for the critical tokens during the alignment process. Specifically, we develop a contrastive estimation approach to automatically identify critical tokens. It is achieved by comparing the generation likelihood of positive and negative models. To achieve this, we separately fine-tune the positive and negative models on various reasoning trajectories, consequently, they are capable of identifying identify critical tokens within incorrect trajectories that contribute to erroneous outcomes. Moreover, to further align the model with the critical token information during the alignment process, we extend the conventional DPO algorithms to token-level DPO and utilize the differential likelihood from the aforementioned positive and negative model as important weight for token-level DPO learning.Experimental results on GSM8K and MATH500 benchmarks with two-widely used models Llama-3 (8B and 70B) and deepseek-math (7B) demonstrate the effectiveness of the propsoed approach cDPO.

Tokens Críticos Importam: Estimação Contrastiva ao Nível do Token Aprimora a Capacidade de Raciocínio do LLM

Critical Tokens Matter: Token-Level Contrastive Estimation Enhence LLM's Reasoning Capability

Resumo

Support