ChatPaper.aiChatPaper

Step-KTO: Ottimizzazione del Ragionamento Matematico tramite Feedback Binario Graduale

Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback

January 18, 2025
Autori: Yen-Ting Lin, Di Jin, Tengyu Xu, Tianhao Wu, Sainbayar Sukhbaatar, Chen Zhu, Yun He, Yun-Nung Chen, Jason Weston, Yuandong Tian, Arash Rahnama, Sinong Wang, Hao Ma, Han Fang
cs.AI

Abstract

I grandi modelli linguistici (LLM) hanno recentemente dimostrato un notevole successo nel ragionamento matematico. Nonostante i progressi nei metodi come la generazione di catene di pensiero e il campionamento di auto-coerenza, questi avanzamenti spesso si concentrano sulla correttezza finale senza garantire che il processo di ragionamento sottostante sia coerente e affidabile. Questo articolo introduce Step-KTO, un quadro di formazione che combina feedback binario a livello di processo e a livello di risultato per guidare i LLM verso traiettorie di ragionamento più affidabili. Fornendo valutazioni binarie sia per i passaggi intermedi di ragionamento che per la risposta finale, Step-KTO incoraggia il modello a seguire progressioni logiche anziché fare affidamento su scorciatoie superficiali. I nostri esperimenti su benchmark matematici impegnativi mostrano che Step-KTO migliora significativamente sia l'accuratezza della risposta finale che la qualità dei passaggi intermedi di ragionamento. Ad esempio, sul dataset MATH-500, Step-KTO ottiene un notevole miglioramento nell'accuratezza Pass@1 rispetto a basi solide. Questi risultati evidenziano la promessa dell'integrazione del feedback di processo graduale nella formazione dei LLM, aprendo la strada verso capacità di ragionamento più interpretabili e affidabili.
English
Large language models (LLMs) have recently demonstrated remarkable success in mathematical reasoning. Despite progress in methods like chain-of-thought prompting and self-consistency sampling, these advances often focus on final correctness without ensuring that the underlying reasoning process is coherent and reliable. This paper introduces Step-KTO, a training framework that combines process-level and outcome-level binary feedback to guide LLMs toward more trustworthy reasoning trajectories. By providing binary evaluations for both the intermediate reasoning steps and the final answer, Step-KTO encourages the model to adhere to logical progressions rather than relying on superficial shortcuts. Our experiments on challenging mathematical benchmarks show that Step-KTO significantly improves both final answer accuracy and the quality of intermediate reasoning steps. For example, on the MATH-500 dataset, Step-KTO achieves a notable improvement in Pass@1 accuracy over strong baselines. These results highlight the promise of integrating stepwise process feedback into LLM training, paving the way toward more interpretable and dependable reasoning capabilities.

Summary

AI-Generated Summary

PDF153January 24, 2025