Step-KTO: Оптимизация математического рассуждения через пошаговую двоичную обратную связь

Аннотация

Большие языковые модели (LLM) недавно продемонстрировали выдающийся успех в математическом рассуждении. Несмотря на прогресс в методах, таких как цепочка мыслей и выборка самоконсистентности, эти достижения часто сосредотачиваются на окончательной правильности, не обеспечивая согласованности и надежности основного процесса рассуждения. В данной статье представлен Step-KTO, обучающая структура, которая объединяет обратную связь на уровне процесса и результата для направления LLM на более надежные траектории рассуждений. Предоставляя бинарные оценки как для промежуточных шагов рассуждения, так и для окончательного ответа, Step-KTO поощряет модель следовать логическим прогрессиям, а не полагаться на поверхностные уловки. Наши эксперименты на сложных математических бенчмарках показывают, что Step-KTO значительно улучшает как точность окончательного ответа, так и качество промежуточных шагов рассуждения. Например, на наборе данных MATH-500, Step-KTO достигает значительного улучшения в точности Pass@1 по сравнению с сильными базовыми моделями. Эти результаты подчеркивают перспективу интеграции обратной связи пошагового процесса в обучение LLM, открывая путь к более интерпретируемым и надежным возможностям рассуждения.

English

Large language models (LLMs) have recently demonstrated remarkable success in mathematical reasoning. Despite progress in methods like chain-of-thought prompting and self-consistency sampling, these advances often focus on final correctness without ensuring that the underlying reasoning process is coherent and reliable. This paper introduces Step-KTO, a training framework that combines process-level and outcome-level binary feedback to guide LLMs toward more trustworthy reasoning trajectories. By providing binary evaluations for both the intermediate reasoning steps and the final answer, Step-KTO encourages the model to adhere to logical progressions rather than relying on superficial shortcuts. Our experiments on challenging mathematical benchmarks show that Step-KTO significantly improves both final answer accuracy and the quality of intermediate reasoning steps. For example, on the MATH-500 dataset, Step-KTO achieves a notable improvement in Pass@1 accuracy over strong baselines. These results highlight the promise of integrating stepwise process feedback into LLM training, paving the way toward more interpretable and dependable reasoning capabilities.

Step-KTO: Оптимизация математического рассуждения через пошаговую двоичную обратную связь

Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback

Аннотация

Support