ChatPaper.aiChatPaper

Step-KTO: Otimizando o Raciocínio Matemático através de Feedback Binário Gradativo

Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback

January 18, 2025
Autores: Yen-Ting Lin, Di Jin, Tengyu Xu, Tianhao Wu, Sainbayar Sukhbaatar, Chen Zhu, Yun He, Yun-Nung Chen, Jason Weston, Yuandong Tian, Arash Rahnama, Sinong Wang, Hao Ma, Han Fang
cs.AI

Resumo

Grandes modelos de linguagem (LLMs) demonstraram recentemente um sucesso notável em raciocínio matemático. Apesar do progresso em métodos como a indução de pensamento em cadeia e amostragem de autoconsistência, esses avanços frequentemente se concentram na correção final sem garantir que o processo de raciocínio subjacente seja coerente e confiável. Este artigo apresenta o Step-KTO, um framework de treinamento que combina feedback binário em nível de processo e em nível de resultado para orientar os LLMs em direção a trajetórias de raciocínio mais confiáveis. Ao fornecer avaliações binárias tanto para os passos de raciocínio intermediários quanto para a resposta final, o Step-KTO incentiva o modelo a aderir a progressões lógicas em vez de depender de atalhos superficiais. Nossos experimentos em benchmarks matemáticos desafiadores mostram que o Step-KTO melhora significativamente tanto a precisão da resposta final quanto a qualidade dos passos de raciocínio intermediários. Por exemplo, no conjunto de dados MATH-500, o Step-KTO alcança uma melhoria notável na precisão Pass@1 em relação a baselines fortes. Esses resultados destacam a promessa de integrar feedback de processo passo a passo no treinamento de LLMs, abrindo caminho para capacidades de raciocínio mais interpretáveis e confiáveis.
English
Large language models (LLMs) have recently demonstrated remarkable success in mathematical reasoning. Despite progress in methods like chain-of-thought prompting and self-consistency sampling, these advances often focus on final correctness without ensuring that the underlying reasoning process is coherent and reliable. This paper introduces Step-KTO, a training framework that combines process-level and outcome-level binary feedback to guide LLMs toward more trustworthy reasoning trajectories. By providing binary evaluations for both the intermediate reasoning steps and the final answer, Step-KTO encourages the model to adhere to logical progressions rather than relying on superficial shortcuts. Our experiments on challenging mathematical benchmarks show that Step-KTO significantly improves both final answer accuracy and the quality of intermediate reasoning steps. For example, on the MATH-500 dataset, Step-KTO achieves a notable improvement in Pass@1 accuracy over strong baselines. These results highlight the promise of integrating stepwise process feedback into LLM training, paving the way toward more interpretable and dependable reasoning capabilities.

Summary

AI-Generated Summary

PDF153January 24, 2025