Важность критических токенов: контрастная оценка на уровне токенов повышает способность логико-лингвистической модели к рассуждениям.
Critical Tokens Matter: Token-Level Contrastive Estimation Enhence LLM's Reasoning Capability
November 29, 2024
Авторы: Zicheng Lin, Tian Liang, Jiahao Xu, Xing Wang, Ruilin Luo, Chufan Shi, Siheng Li, Yujiu Yang, Zhaopeng Tu
cs.AI
Аннотация
Большие языковые модели (LLM) продемонстрировали выдающуюся производительность на задачах рассуждения. Они используют авторегрессивную генерацию токенов для построения траекторий рассуждений, обеспечивая развитие последовательной цепочки мыслей. В данной работе мы исследуем влияние отдельных токенов на конечные результаты задач рассуждения. Мы выявляем существование "критических токенов", которые приводят к неправильным траекториям рассуждений в LLM. Конкретно, мы обнаруживаем, что LLM склонны к производству положительных результатов, когда им приходится декодировать другие токены вместо критических токенов. Под воздействием этого наблюдения мы предлагаем новый подход - cDPO - разработанный для автоматического распознавания и проведения наград на уровне токенов для критических токенов в процессе выравнивания. Конкретно, мы разрабатываем подход контрастной оценки для автоматического выявления критических токенов. Это достигается путем сравнения вероятности генерации положительных и отрицательных моделей. Для этого мы отдельно донастраиваем положительные и отрицательные модели на различных траекториях рассуждений, в результате они способны выявлять критические токены в неправильных траекториях, которые приводят к ошибочным результатам. Более того, для дальнейшего выравнивания модели с информацией о критическом токене в процессе выравнивания, мы расширяем обычные алгоритмы DPO до алгоритмов DPO на уровне токенов и используем дифференциальную вероятность от упомянутой выше положительной и отрицательной модели в качестве важного веса для обучения DPO на уровне токенов. Экспериментальные результаты на бенчмарках GSM8K и MATH500 с двумя широко используемыми моделями Llama-3 (8B и 70B) и deepseek-math (7B) демонстрируют эффективность предложенного подхода cDPO.
English
Large Language Models (LLMs) have exhibited remarkable performance on
reasoning tasks. They utilize autoregressive token generation to construct
reasoning trajectories, enabling the development of a coherent chain of
thought. In this work, we explore the impact of individual tokens on the final
outcomes of reasoning tasks. We identify the existence of ``critical tokens''
that lead to incorrect reasoning trajectories in LLMs. Specifically, we find
that LLMs tend to produce positive outcomes when forced to decode other tokens
instead of critical tokens. Motivated by this observation, we propose a novel
approach - cDPO - designed to automatically recognize and conduct token-level
rewards for the critical tokens during the alignment process. Specifically, we
develop a contrastive estimation approach to automatically identify critical
tokens. It is achieved by comparing the generation likelihood of positive and
negative models. To achieve this, we separately fine-tune the positive and
negative models on various reasoning trajectories, consequently, they are
capable of identifying identify critical tokens within incorrect trajectories
that contribute to erroneous outcomes. Moreover, to further align the model
with the critical token information during the alignment process, we extend the
conventional DPO algorithms to token-level DPO and utilize the differential
likelihood from the aforementioned positive and negative model as important
weight for token-level DPO learning.Experimental results on GSM8K and MATH500
benchmarks with two-widely used models Llama-3 (8B and 70B) and deepseek-math
(7B) demonstrate the effectiveness of the propsoed approach cDPO.Summary
AI-Generated Summary