Важность критических токенов: контрастная оценка на уровне токенов повышает способность логико-лингвистической модели к рассуждениям.Critical Tokens Matter: Token-Level Contrastive Estimation Enhence LLM's
Reasoning Capability
Большие языковые модели (LLM) продемонстрировали выдающуюся производительность на задачах рассуждения. Они используют авторегрессивную генерацию токенов для построения траекторий рассуждений, обеспечивая развитие последовательной цепочки мыслей. В данной работе мы исследуем влияние отдельных токенов на конечные результаты задач рассуждения. Мы выявляем существование "критических токенов", которые приводят к неправильным траекториям рассуждений в LLM. Конкретно, мы обнаруживаем, что LLM склонны к производству положительных результатов, когда им приходится декодировать другие токены вместо критических токенов. Под воздействием этого наблюдения мы предлагаем новый подход - cDPO - разработанный для автоматического распознавания и проведения наград на уровне токенов для критических токенов в процессе выравнивания. Конкретно, мы разрабатываем подход контрастной оценки для автоматического выявления критических токенов. Это достигается путем сравнения вероятности генерации положительных и отрицательных моделей. Для этого мы отдельно донастраиваем положительные и отрицательные модели на различных траекториях рассуждений, в результате они способны выявлять критические токены в неправильных траекториях, которые приводят к ошибочным результатам. Более того, для дальнейшего выравнивания модели с информацией о критическом токене в процессе выравнивания, мы расширяем обычные алгоритмы DPO до алгоритмов DPO на уровне токенов и используем дифференциальную вероятность от упомянутой выше положительной и отрицательной модели в качестве важного веса для обучения DPO на уровне токенов. Экспериментальные результаты на бенчмарках GSM8K и MATH500 с двумя широко используемыми моделями Llama-3 (8B и 70B) и deepseek-math (7B) демонстрируют эффективность предложенного подхода cDPO.