Atenção à Lacuna: Preenchendo o Salto de Pensamento para Melhorar o Ajuste de Cadeia de Raciocínio
Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning
May 20, 2025
Autores: Haolei Xu, Yuchen Yan, Yongliang Shen, Wenqi Zhang, Guiyang Hou, Shengpei Jiang, Kaitao Song, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) alcançaram progressos notáveis em tarefas matemáticas por meio do raciocínio em Cadeia de Pensamento (Chain-of-Thought, CoT). No entanto, os conjuntos de dados matemáticos de CoT existentes frequentemente sofrem com Saltos de Pensamento devido à omissão de etapas intermediárias por especialistas, o que impacta negativamente o aprendizado e a generalização dos modelos. Propomos a Tarefa de Ponte para Saltos de Pensamento em CoT, que visa detectar automaticamente esses saltos e gerar etapas intermediárias de raciocínio ausentes para restaurar a completude e a coerência do CoT. Para facilitar isso, construímos um conjunto de dados de treinamento especializado chamado ScaleQM+, baseado no conjunto de dados estruturado ScaleQuestMath, e treinamos o CoT-Bridge para preencher os saltos de pensamento. Por meio de experimentos abrangentes em benchmarks de raciocínio matemático, demonstramos que modelos ajustados em conjuntos de dados com pontes superam consistentemente aqueles treinados em conjuntos de dados originais, com melhorias de até +5,87% no NuminaMath. Nossa abordagem aprimora efetivamente dados destilados (+3,02%) e fornece pontos de partida melhores para aprendizado por reforço (+3,1%), funcionando como um módulo plug-and-play compatível com técnicas de otimização existentes. Além disso, o CoT-Bridge demonstra uma generalização aprimorada para tarefas de raciocínio lógico fora do domínio, confirmando que a melhoria da completude do raciocínio traz benefícios amplamente aplicáveis.
English
Large language models (LLMs) have achieved remarkable progress on
mathematical tasks through Chain-of-Thought (CoT) reasoning. However, existing
mathematical CoT datasets often suffer from Thought Leaps due to experts
omitting intermediate steps, which negatively impacts model learning and
generalization. We propose the CoT Thought Leap Bridge Task, which aims to
automatically detect leaps and generate missing intermediate reasoning steps to
restore the completeness and coherence of CoT. To facilitate this, we
constructed a specialized training dataset called ScaleQM+, based on the
structured ScaleQuestMath dataset, and trained CoT-Bridge to bridge thought
leaps. Through comprehensive experiments on mathematical reasoning benchmarks,
we demonstrate that models fine-tuned on bridged datasets consistently
outperform those trained on original datasets, with improvements of up to
+5.87% on NuminaMath. Our approach effectively enhances distilled data (+3.02%)
and provides better starting points for reinforcement learning (+3.1%),
functioning as a plug-and-play module compatible with existing optimization
techniques. Furthermore, CoT-Bridge demonstrate improved generalization to
out-of-domain logical reasoning tasks, confirming that enhancing reasoning
completeness yields broadly applicable benefits.