ChatPaper.aiChatPaper

간극을 주목하라: 사고 도약을 연결하여 사고 사슬(Chain-of-Thought) 튜닝 개선하기

Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning

May 20, 2025
저자: Haolei Xu, Yuchen Yan, Yongliang Shen, Wenqi Zhang, Guiyang Hou, Shengpei Jiang, Kaitao Song, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI

초록

대형 언어 모델(LLMs)은 사고의 연쇄(Chain-of-Thought, CoT) 추론을 통해 수학적 과제에서 놀라운 진전을 이루었습니다. 그러나 기존의 수학적 CoT 데이터셋은 전문가들이 중간 단계를 생략함으로써 발생하는 '사고 도약(Thought Leaps)' 문제로 인해 모델 학습과 일반화에 부정적인 영향을 미치는 경우가 많습니다. 우리는 이러한 사고 도약을 자동으로 감지하고 누락된 중간 추론 단계를 생성하여 CoT의 완전성과 일관성을 회복하는 'CoT 사고 도약 연결 과제(CoT Thought Leap Bridge Task)'를 제안합니다. 이를 위해 구조화된 ScaleQuestMath 데이터셋을 기반으로 한 특화된 학습 데이터셋인 ScaleQM+를 구축하고, 사고 도약을 연결하는 CoT-Bridge를 학습시켰습니다. 수학적 추론 벤치마크에 대한 포괄적인 실험을 통해, 우리는 연결된 데이터셋으로 미세 조정된 모델이 원본 데이터셋으로 학습된 모델보다 지속적으로 우수한 성능을 보이며, NuminaMath에서 최대 +5.87%의 성능 향상을 달성함을 입증했습니다. 우리의 접근 방식은 증류된 데이터를 효과적으로 개선(+3.02%)하고, 강화 학습을 위한 더 나은 출발점을 제공하며(+3.1%), 기존 최적화 기술과 호환되는 플러그 앤 플레이 모듈로 기능합니다. 또한, CoT-Bridge는 도메인 외 논리적 추론 과제에서도 향상된 일반화 능력을 보여주어, 추론의 완전성을 강화하는 것이 광범위한 이점을 제공함을 확인했습니다.
English
Large language models (LLMs) have achieved remarkable progress on mathematical tasks through Chain-of-Thought (CoT) reasoning. However, existing mathematical CoT datasets often suffer from Thought Leaps due to experts omitting intermediate steps, which negatively impacts model learning and generalization. We propose the CoT Thought Leap Bridge Task, which aims to automatically detect leaps and generate missing intermediate reasoning steps to restore the completeness and coherence of CoT. To facilitate this, we constructed a specialized training dataset called ScaleQM+, based on the structured ScaleQuestMath dataset, and trained CoT-Bridge to bridge thought leaps. Through comprehensive experiments on mathematical reasoning benchmarks, we demonstrate that models fine-tuned on bridged datasets consistently outperform those trained on original datasets, with improvements of up to +5.87% on NuminaMath. Our approach effectively enhances distilled data (+3.02%) and provides better starting points for reinforcement learning (+3.1%), functioning as a plug-and-play module compatible with existing optimization techniques. Furthermore, CoT-Bridge demonstrate improved generalization to out-of-domain logical reasoning tasks, confirming that enhancing reasoning completeness yields broadly applicable benefits.

Summary

AI-Generated Summary

PDF181May 23, 2025