Step-KTO: Оптимизация математического рассуждения через пошаговую двоичную обратную связь
Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback
January 18, 2025
Авторы: Yen-Ting Lin, Di Jin, Tengyu Xu, Tianhao Wu, Sainbayar Sukhbaatar, Chen Zhu, Yun He, Yun-Nung Chen, Jason Weston, Yuandong Tian, Arash Rahnama, Sinong Wang, Hao Ma, Han Fang
cs.AI
Аннотация
Большие языковые модели (LLM) недавно продемонстрировали выдающийся успех в математическом рассуждении. Несмотря на прогресс в методах, таких как цепочка мыслей и выборка самоконсистентности, эти достижения часто сосредотачиваются на окончательной правильности, не обеспечивая согласованности и надежности основного процесса рассуждения. В данной статье представлен Step-KTO, обучающая структура, которая объединяет обратную связь на уровне процесса и результата для направления LLM на более надежные траектории рассуждений. Предоставляя бинарные оценки как для промежуточных шагов рассуждения, так и для окончательного ответа, Step-KTO поощряет модель следовать логическим прогрессиям, а не полагаться на поверхностные уловки. Наши эксперименты на сложных математических бенчмарках показывают, что Step-KTO значительно улучшает как точность окончательного ответа, так и качество промежуточных шагов рассуждения. Например, на наборе данных MATH-500, Step-KTO достигает значительного улучшения в точности Pass@1 по сравнению с сильными базовыми моделями. Эти результаты подчеркивают перспективу интеграции обратной связи пошагового процесса в обучение LLM, открывая путь к более интерпретируемым и надежным возможностям рассуждения.
English
Large language models (LLMs) have recently demonstrated remarkable success in
mathematical reasoning. Despite progress in methods like chain-of-thought
prompting and self-consistency sampling, these advances often focus on final
correctness without ensuring that the underlying reasoning process is coherent
and reliable. This paper introduces Step-KTO, a training framework that
combines process-level and outcome-level binary feedback to guide LLMs toward
more trustworthy reasoning trajectories. By providing binary evaluations for
both the intermediate reasoning steps and the final answer, Step-KTO encourages
the model to adhere to logical progressions rather than relying on superficial
shortcuts. Our experiments on challenging mathematical benchmarks show that
Step-KTO significantly improves both final answer accuracy and the quality of
intermediate reasoning steps. For example, on the MATH-500 dataset, Step-KTO
achieves a notable improvement in Pass@1 accuracy over strong baselines. These
results highlight the promise of integrating stepwise process feedback into LLM
training, paving the way toward more interpretable and dependable reasoning
capabilities.