ChatPaper.aiChatPaper

Let op de kloof: Het overbruggen van gedachtesprongen voor verbeterde afstemming van gedachteketens

Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning

May 20, 2025
Auteurs: Haolei Xu, Yuchen Yan, Yongliang Shen, Wenqi Zhang, Guiyang Hou, Shengpei Jiang, Kaitao Song, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI

Samenvatting

Grote taalmodellen (LLMs) hebben opmerkelijke vooruitgang geboekt bij wiskundige taken door middel van Chain-of-Thought (CoT) redenering. Bestaande wiskundige CoT-datasets lijden echter vaak aan Thought Leaps doordat experts tussenliggende stappen weglaten, wat het leren en de generalisatie van modellen negatief beïnvloedt. Wij stellen de CoT Thought Leap Bridge Task voor, die als doel heeft om sprongen automatisch te detecteren en ontbrekende tussenliggende redeneerstappen te genereren om de volledigheid en samenhang van CoT te herstellen. Om dit te faciliteren, hebben we een gespecialiseerde trainingsdataset genaamd ScaleQM+ geconstrueerd, gebaseerd op de gestructureerde ScaleQuestMath-dataset, en hebben we CoT-Bridge getraind om gedachtensprongen te overbruggen. Door middel van uitgebreide experimenten op benchmarks voor wiskundig redeneren, tonen we aan dat modellen die zijn afgestemd op overbrugde datasets consistent beter presteren dan modellen die zijn getraind op originele datasets, met verbeteringen tot +5,87% op NuminaMath. Onze aanpak verbetert effectief gedistilleerde data (+3,02%) en biedt betere startpunten voor reinforcement learning (+3,1%), en functioneert als een plug-and-play module die compatibel is met bestaande optimalisatietechnieken. Bovendien toont CoT-Bridge verbeterde generalisatie naar out-of-domain logische redeneertaken, wat bevestigt dat het verbeteren van de volledigheid van redenering breed toepasbare voordelen oplevert.
English
Large language models (LLMs) have achieved remarkable progress on mathematical tasks through Chain-of-Thought (CoT) reasoning. However, existing mathematical CoT datasets often suffer from Thought Leaps due to experts omitting intermediate steps, which negatively impacts model learning and generalization. We propose the CoT Thought Leap Bridge Task, which aims to automatically detect leaps and generate missing intermediate reasoning steps to restore the completeness and coherence of CoT. To facilitate this, we constructed a specialized training dataset called ScaleQM+, based on the structured ScaleQuestMath dataset, and trained CoT-Bridge to bridge thought leaps. Through comprehensive experiments on mathematical reasoning benchmarks, we demonstrate that models fine-tuned on bridged datasets consistently outperform those trained on original datasets, with improvements of up to +5.87% on NuminaMath. Our approach effectively enhances distilled data (+3.02%) and provides better starting points for reinforcement learning (+3.1%), functioning as a plug-and-play module compatible with existing optimization techniques. Furthermore, CoT-Bridge demonstrate improved generalization to out-of-domain logical reasoning tasks, confirming that enhancing reasoning completeness yields broadly applicable benefits.
PDF241May 23, 2025