ChatPaper.aiChatPaper

Step-KTO: Optimizando el Razonamiento Matemático a través de Retroalimentación Binaria por Pasos

Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback

January 18, 2025
Autores: Yen-Ting Lin, Di Jin, Tengyu Xu, Tianhao Wu, Sainbayar Sukhbaatar, Chen Zhu, Yun He, Yun-Nung Chen, Jason Weston, Yuandong Tian, Arash Rahnama, Sinong Wang, Hao Ma, Han Fang
cs.AI

Resumen

Los modelos de lenguaje grandes (LLMs) han demostrado recientemente un éxito notable en el razonamiento matemático. A pesar del progreso en métodos como la inducción de cadenas de pensamiento y el muestreo de autoconsistencia, estos avances a menudo se centran en la corrección final sin garantizar que el proceso de razonamiento subyacente sea coherente y confiable. Este artículo presenta Step-KTO, un marco de entrenamiento que combina retroalimentación binaria a nivel de proceso y a nivel de resultado para guiar a los LLMs hacia trayectorias de razonamiento más confiables. Al proporcionar evaluaciones binarias tanto para los pasos intermedios de razonamiento como para la respuesta final, Step-KTO anima al modelo a seguir progresiones lógicas en lugar de depender de atajos superficiales. Nuestros experimentos en desafiantes bancos de pruebas matemáticas muestran que Step-KTO mejora significativamente tanto la precisión de la respuesta final como la calidad de los pasos intermedios de razonamiento. Por ejemplo, en el conjunto de datos MATH-500, Step-KTO logra una notable mejora en la precisión de Pass@1 sobre líneas de base sólidas. Estos resultados destacan la promesa de integrar retroalimentación de proceso paso a paso en el entrenamiento de LLMs, allanando el camino hacia capacidades de razonamiento más interpretables y confiables.
English
Large language models (LLMs) have recently demonstrated remarkable success in mathematical reasoning. Despite progress in methods like chain-of-thought prompting and self-consistency sampling, these advances often focus on final correctness without ensuring that the underlying reasoning process is coherent and reliable. This paper introduces Step-KTO, a training framework that combines process-level and outcome-level binary feedback to guide LLMs toward more trustworthy reasoning trajectories. By providing binary evaluations for both the intermediate reasoning steps and the final answer, Step-KTO encourages the model to adhere to logical progressions rather than relying on superficial shortcuts. Our experiments on challenging mathematical benchmarks show that Step-KTO significantly improves both final answer accuracy and the quality of intermediate reasoning steps. For example, on the MATH-500 dataset, Step-KTO achieves a notable improvement in Pass@1 accuracy over strong baselines. These results highlight the promise of integrating stepwise process feedback into LLM training, paving the way toward more interpretable and dependable reasoning capabilities.

Summary

AI-Generated Summary

PDF153January 24, 2025