ギャップに注意:思考の飛躍を橋渡しして連鎖的思考チューニングを改善する
Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning
May 20, 2025
著者: Haolei Xu, Yuchen Yan, Yongliang Shen, Wenqi Zhang, Guiyang Hou, Shengpei Jiang, Kaitao Song, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI
要旨
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)推論を通じて数学的タスクにおいて顕著な進歩を遂げてきました。しかし、既存の数学的CoTデータセットは、専門家が中間ステップを省略することによる「思考の飛躍(Thought Leaps)」に悩まされており、モデルの学習と汎化に悪影響を及ぼしています。本研究では、CoTの思考の飛躍を自動的に検出し、欠落した中間推論ステップを生成することで、CoTの完全性と一貫性を回復することを目的とした「CoT Thought Leap Bridge Task」を提案します。これを実現するため、構造化されたScaleQuestMathデータセットに基づいて「ScaleQM+」という専門的なトレーニングデータセットを構築し、思考の飛躍を橋渡しする「CoT-Bridge」を訓練しました。数学的推論ベンチマークにおける包括的な実験を通じて、橋渡しされたデータセットでファインチューニングされたモデルが、元のデータセットで訓練されたモデルを一貫して上回り、NuminaMathでは最大+5.87%の改善を示すことを実証しました。本手法は蒸留データの品質向上(+3.02%)や強化学習のより良い出発点の提供(+3.1%)にも有効であり、既存の最適化技術と互換性のあるプラグアンドプレイモジュールとして機能します。さらに、CoT-Bridgeはドメイン外の論理推論タスクへの汎化能力も向上させており、推論の完全性を高めることが広範に適用可能な利点をもたらすことを確認しました。
English
Large language models (LLMs) have achieved remarkable progress on
mathematical tasks through Chain-of-Thought (CoT) reasoning. However, existing
mathematical CoT datasets often suffer from Thought Leaps due to experts
omitting intermediate steps, which negatively impacts model learning and
generalization. We propose the CoT Thought Leap Bridge Task, which aims to
automatically detect leaps and generate missing intermediate reasoning steps to
restore the completeness and coherence of CoT. To facilitate this, we
constructed a specialized training dataset called ScaleQM+, based on the
structured ScaleQuestMath dataset, and trained CoT-Bridge to bridge thought
leaps. Through comprehensive experiments on mathematical reasoning benchmarks,
we demonstrate that models fine-tuned on bridged datasets consistently
outperform those trained on original datasets, with improvements of up to
+5.87% on NuminaMath. Our approach effectively enhances distilled data (+3.02%)
and provides better starting points for reinforcement learning (+3.1%),
functioning as a plug-and-play module compatible with existing optimization
techniques. Furthermore, CoT-Bridge demonstrate improved generalization to
out-of-domain logical reasoning tasks, confirming that enhancing reasoning
completeness yields broadly applicable benefits.Summary
AI-Generated Summary