Los Tokens Críticos Importan: La Estimación Contrastiva a Nivel de Token Mejora la Capacidad de Razonamiento de los LLM

Resumen

Los Modelos de Lenguaje de Gran Tamaño (LLMs) han demostrado un rendimiento notable en tareas de razonamiento. Utilizan la generación de tokens autoregresiva para construir trayectorias de razonamiento, lo que permite el desarrollo de una cadena coherente de pensamiento. En este trabajo, exploramos el impacto de los tokens individuales en los resultados finales de las tareas de razonamiento. Identificamos la existencia de "tokens críticos" que conducen a trayectorias de razonamiento incorrectas en los LLMs. Específicamente, descubrimos que los LLMs tienden a producir resultados positivos cuando se les obliga a decodificar otros tokens en lugar de los tokens críticos. Motivados por esta observación, proponemos un enfoque novedoso - cDPO - diseñado para reconocer automáticamente y llevar a cabo recompensas a nivel de token para los tokens críticos durante el proceso de alineación. Específicamente, desarrollamos un enfoque de estimación contrastiva para identificar automáticamente los tokens críticos. Esto se logra comparando la probabilidad de generación de modelos positivos y negativos. Para lograrlo, ajustamos por separado los modelos positivos y negativos en varias trayectorias de razonamiento, lo que les permite identificar los tokens críticos dentro de las trayectorias incorrectas que contribuyen a resultados erróneos. Además, para alinear aún más el modelo con la información del token crítico durante el proceso de alineación, extendemos los algoritmos DPO convencionales a DPO a nivel de token y utilizamos la verosimilitud diferencial de los mencionados modelos positivos y negativos como un peso importante para el aprendizaje de DPO a nivel de token. Los resultados experimentales en los benchmarks GSM8K y MATH500 con los modelos ampliamente utilizados Llama-3 (8B y 70B) y deepseek-math (7B) demuestran la efectividad del enfoque propuesto cDPO.

English

Large Language Models (LLMs) have exhibited remarkable performance on reasoning tasks. They utilize autoregressive token generation to construct reasoning trajectories, enabling the development of a coherent chain of thought. In this work, we explore the impact of individual tokens on the final outcomes of reasoning tasks. We identify the existence of ``critical tokens'' that lead to incorrect reasoning trajectories in LLMs. Specifically, we find that LLMs tend to produce positive outcomes when forced to decode other tokens instead of critical tokens. Motivated by this observation, we propose a novel approach - cDPO - designed to automatically recognize and conduct token-level rewards for the critical tokens during the alignment process. Specifically, we develop a contrastive estimation approach to automatically identify critical tokens. It is achieved by comparing the generation likelihood of positive and negative models. To achieve this, we separately fine-tune the positive and negative models on various reasoning trajectories, consequently, they are capable of identifying identify critical tokens within incorrect trajectories that contribute to erroneous outcomes. Moreover, to further align the model with the critical token information during the alignment process, we extend the conventional DPO algorithms to token-level DPO and utilize the differential likelihood from the aforementioned positive and negative model as important weight for token-level DPO learning.Experimental results on GSM8K and MATH500 benchmarks with two-widely used models Llama-3 (8B and 70B) and deepseek-math (7B) demonstrate the effectiveness of the propsoed approach cDPO.

Los Tokens Críticos Importan: La Estimación Contrastiva a Nivel de Token Mejora la Capacidad de Razonamiento de los LLM

Critical Tokens Matter: Token-Level Contrastive Estimation Enhence LLM's Reasoning Capability

Resumen

Support