Attention à l'écart : Combler le saut de pensée pour améliorer le réglage des chaînes de raisonnement
Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning
May 20, 2025
Auteurs: Haolei Xu, Yuchen Yan, Yongliang Shen, Wenqi Zhang, Guiyang Hou, Shengpei Jiang, Kaitao Song, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont réalisé des progrès remarquables dans les tâches mathématiques grâce au raisonnement en chaîne de pensée (Chain-of-Thought, CoT). Cependant, les ensembles de données mathématiques CoT existants souffrent souvent de sauts de pensée (Thought Leaps) dus à l'omission d'étapes intermédiaires par les experts, ce qui affecte négativement l'apprentissage et la généralisation des modèles. Nous proposons la tâche CoT Thought Leap Bridge, qui vise à détecter automatiquement ces sauts et à générer les étapes de raisonnement intermédiaires manquantes pour restaurer la complétude et la cohérence du CoT. Pour faciliter cela, nous avons construit un ensemble de données d'entraînement spécialisé appelé ScaleQM+, basé sur l'ensemble de données structuré ScaleQuestMath, et avons entraîné CoT-Bridge à combler les sauts de pensée. À travers des expériences approfondies sur des benchmarks de raisonnement mathématique, nous démontrons que les modèles affinés sur des ensembles de données comblés surpassent systématiquement ceux entraînés sur les ensembles de données originaux, avec des améliorations allant jusqu'à +5,87 % sur NuminaMath. Notre approche améliore efficacement les données distillées (+3,02 %) et fournit de meilleurs points de départ pour l'apprentissage par renforcement (+3,1 %), fonctionnant comme un module plug-and-play compatible avec les techniques d'optimisation existantes. De plus, CoT-Bridge montre une meilleure généralisation aux tâches de raisonnement logique hors domaine, confirmant que l'amélioration de la complétude du raisonnement apporte des bénéfices largement applicables.
English
Large language models (LLMs) have achieved remarkable progress on
mathematical tasks through Chain-of-Thought (CoT) reasoning. However, existing
mathematical CoT datasets often suffer from Thought Leaps due to experts
omitting intermediate steps, which negatively impacts model learning and
generalization. We propose the CoT Thought Leap Bridge Task, which aims to
automatically detect leaps and generate missing intermediate reasoning steps to
restore the completeness and coherence of CoT. To facilitate this, we
constructed a specialized training dataset called ScaleQM+, based on the
structured ScaleQuestMath dataset, and trained CoT-Bridge to bridge thought
leaps. Through comprehensive experiments on mathematical reasoning benchmarks,
we demonstrate that models fine-tuned on bridged datasets consistently
outperform those trained on original datasets, with improvements of up to
+5.87% on NuminaMath. Our approach effectively enhances distilled data (+3.02%)
and provides better starting points for reinforcement learning (+3.1%),
functioning as a plug-and-play module compatible with existing optimization
techniques. Furthermore, CoT-Bridge demonstrate improved generalization to
out-of-domain logical reasoning tasks, confirming that enhancing reasoning
completeness yields broadly applicable benefits.Summary
AI-Generated Summary