ChatPaper.aiChatPaper

Attenzione al Divario: Colmare il Salto Concettuale per un Miglior Affinamento della Catena di Pensiero

Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning

May 20, 2025
Autori: Haolei Xu, Yuchen Yan, Yongliang Shen, Wenqi Zhang, Guiyang Hou, Shengpei Jiang, Kaitao Song, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI

Abstract

I grandi modelli linguistici (LLM) hanno ottenuto progressi significativi nei compiti matematici grazie al ragionamento a catena di pensiero (CoT). Tuttavia, i dataset CoT matematici esistenti spesso presentano il problema dei "salti di pensiero" dovuti all'omissione di passaggi intermedi da parte degli esperti, il che influisce negativamente sull'apprendimento e sulla generalizzazione del modello. Proponiamo il compito CoT Thought Leap Bridge, che mira a rilevare automaticamente i salti e a generare i passaggi di ragionamento intermedi mancanti per ripristinare la completezza e la coerenza del CoT. Per facilitare ciò, abbiamo costruito un dataset di addestramento specializzato chiamato ScaleQM+, basato sul dataset strutturato ScaleQuestMath, e abbiamo addestrato CoT-Bridge a colmare i salti di pensiero. Attraverso esperimenti completi su benchmark di ragionamento matematico, dimostriamo che i modelli fine-tuned su dataset "pontati" superano costantemente quelli addestrati su dataset originali, con miglioramenti fino a +5,87% su NuminaMath. Il nostro approccio migliora efficacemente i dati distillati (+3,02%) e fornisce punti di partenza migliori per l'apprendimento per rinforzo (+3,1%), funzionando come un modulo plug-and-play compatibile con le tecniche di ottimizzazione esistenti. Inoltre, CoT-Bridge mostra una migliore generalizzazione su compiti di ragionamento logico fuori dominio, confermando che il miglioramento della completezza del ragionamento produce benefici ampiamente applicabili.
English
Large language models (LLMs) have achieved remarkable progress on mathematical tasks through Chain-of-Thought (CoT) reasoning. However, existing mathematical CoT datasets often suffer from Thought Leaps due to experts omitting intermediate steps, which negatively impacts model learning and generalization. We propose the CoT Thought Leap Bridge Task, which aims to automatically detect leaps and generate missing intermediate reasoning steps to restore the completeness and coherence of CoT. To facilitate this, we constructed a specialized training dataset called ScaleQM+, based on the structured ScaleQuestMath dataset, and trained CoT-Bridge to bridge thought leaps. Through comprehensive experiments on mathematical reasoning benchmarks, we demonstrate that models fine-tuned on bridged datasets consistently outperform those trained on original datasets, with improvements of up to +5.87% on NuminaMath. Our approach effectively enhances distilled data (+3.02%) and provides better starting points for reinforcement learning (+3.1%), functioning as a plug-and-play module compatible with existing optimization techniques. Furthermore, CoT-Bridge demonstrate improved generalization to out-of-domain logical reasoning tasks, confirming that enhancing reasoning completeness yields broadly applicable benefits.
PDF231May 23, 2025