Tokens Críticos Importam: Estimação Contrastiva ao Nível do Token Aprimora a Capacidade de Raciocínio do LLMCritical Tokens Matter: Token-Level Contrastive Estimation Enhence LLM's
Reasoning Capability
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado um desempenho notável em tarefas de raciocínio. Eles utilizam a geração autoregressiva de tokens para construir trajetórias de raciocínio, permitindo o desenvolvimento de uma cadeia coerente de pensamento. Neste trabalho, exploramos o impacto de tokens individuais nos resultados finais de tarefas de raciocínio. Identificamos a existência de "tokens críticos" que levam a trajetórias de raciocínio incorretas em LLMs. Especificamente, descobrimos que os LLMs tendem a produzir resultados positivos quando forçados a decodificar outros tokens em vez dos tokens críticos. Motivados por essa observação, propomos uma abordagem inovadora - cDPO - projetada para reconhecer e realizar recompensas em nível de token para os tokens críticos durante o processo de alinhamento. Especificamente, desenvolvemos uma abordagem de estimação contrastiva para identificar automaticamente os tokens críticos. Isso é alcançado comparando a probabilidade de geração de modelos positivos e negativos. Para isso, ajustamos separadamente os modelos positivos e negativos em várias trajetórias de raciocínio, sendo capazes de identificar os tokens críticos dentro de trajetórias incorretas que contribuem para resultados errôneos. Além disso, para alinhar ainda mais o modelo com as informações dos tokens críticos durante o processo de alinhamento, estendemos os algoritmos DPO convencionais para DPO em nível de token e utilizamos a probabilidade diferencial dos modelos positivos e negativos mencionados anteriormente como peso importante para o aprendizado em nível de token do DPO. Resultados experimentais nos benchmarks GSM8K e MATH500 com os modelos amplamente utilizados Llama-3 (8B e 70B) e deepseek-math (7B) demonstram a eficácia da abordagem proposta cDPO.