Обратите внимание на разрыв: преодоление скачка мысли для улучшения настройки цепочки рассуждений
Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning
May 20, 2025
Авторы: Haolei Xu, Yuchen Yan, Yongliang Shen, Wenqi Zhang, Guiyang Hou, Shengpei Jiang, Kaitao Song, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI
Аннотация
Крупные языковые модели (LLM) достигли значительных успехов в решении математических задач благодаря рассуждениям по цепочке мыслей (Chain-of-Thought, CoT). Однако существующие наборы данных для математических CoT часто страдают от "прыжков в мыслях" (Thought Leaps), вызванных пропуском промежуточных шагов экспертами, что негативно сказывается на обучении и обобщающей способности моделей. Мы предлагаем задачу CoT Thought Leap Bridge, которая направлена на автоматическое обнаружение таких прыжков и генерацию недостающих промежуточных шагов рассуждений для восстановления полноты и связности CoT. Для этого мы создали специализированный обучающий набор данных ScaleQM+, основанный на структурированном наборе ScaleQuestMath, и обучили модель CoT-Bridge для устранения прыжков в мыслях. В ходе всесторонних экспериментов на эталонных задачах математического рассуждения мы показали, что модели, дообученные на исправленных наборах данных, стабильно превосходят модели, обученные на исходных данных, с улучшением до +5,87% на тесте NuminaMath. Наш подход эффективно улучшает дистиллированные данные (+3,02%) и предоставляет более качественные начальные точки для обучения с подкреплением (+3,1%), функционируя как модуль "подключи и работай", совместимый с существующими методами оптимизации. Кроме того, CoT-Bridge демонстрирует улучшенную обобщающую способность для задач логического рассуждения вне домена, подтверждая, что повышение полноты рассуждений приносит широко применимые преимущества.
English
Large language models (LLMs) have achieved remarkable progress on
mathematical tasks through Chain-of-Thought (CoT) reasoning. However, existing
mathematical CoT datasets often suffer from Thought Leaps due to experts
omitting intermediate steps, which negatively impacts model learning and
generalization. We propose the CoT Thought Leap Bridge Task, which aims to
automatically detect leaps and generate missing intermediate reasoning steps to
restore the completeness and coherence of CoT. To facilitate this, we
constructed a specialized training dataset called ScaleQM+, based on the
structured ScaleQuestMath dataset, and trained CoT-Bridge to bridge thought
leaps. Through comprehensive experiments on mathematical reasoning benchmarks,
we demonstrate that models fine-tuned on bridged datasets consistently
outperform those trained on original datasets, with improvements of up to
+5.87% on NuminaMath. Our approach effectively enhances distilled data (+3.02%)
and provides better starting points for reinforcement learning (+3.1%),
functioning as a plug-and-play module compatible with existing optimization
techniques. Furthermore, CoT-Bridge demonstrate improved generalization to
out-of-domain logical reasoning tasks, confirming that enhancing reasoning
completeness yields broadly applicable benefits.Summary
AI-Generated Summary