Atención al Vacío: Cerrando la Brecha del Salto Mental para Mejorar el Ajuste de la Cadena de Pensamiento
Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning
May 20, 2025
Autores: Haolei Xu, Yuchen Yan, Yongliang Shen, Wenqi Zhang, Guiyang Hou, Shengpei Jiang, Kaitao Song, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs) han logrado avances notables en tareas matemáticas mediante el razonamiento de Cadena de Pensamiento (CoT). Sin embargo, los conjuntos de datos matemáticos de CoT existentes a menudo presentan Saltos de Pensamiento debido a que los expertos omiten pasos intermedios, lo que afecta negativamente el aprendizaje y la generalización del modelo. Proponemos la Tarea de Puente para Saltos de Pensamiento en CoT, que tiene como objetivo detectar automáticamente los saltos y generar los pasos intermedios de razonamiento faltantes para restaurar la completitud y coherencia del CoT. Para facilitar esto, construimos un conjunto de datos de entrenamiento especializado llamado ScaleQM+, basado en el conjunto de datos estructurado ScaleQuestMath, y entrenamos CoT-Bridge para conectar los saltos de pensamiento. A través de experimentos exhaustivos en benchmarks de razonamiento matemático, demostramos que los modelos ajustados en conjuntos de datos con puentes superan consistentemente a aquellos entrenados en conjuntos de datos originales, con mejoras de hasta +5.87% en NuminaMath. Nuestro enfoque mejora efectivamente los datos destilados (+3.02%) y proporciona mejores puntos de partida para el aprendizaje por refuerzo (+3.1%), funcionando como un módulo plug-and-play compatible con técnicas de optimización existentes. Además, CoT-Bridge muestra una mejor generalización en tareas de razonamiento lógico fuera de dominio, confirmando que mejorar la completitud del razonamiento ofrece beneficios ampliamente aplicables.
English
Large language models (LLMs) have achieved remarkable progress on
mathematical tasks through Chain-of-Thought (CoT) reasoning. However, existing
mathematical CoT datasets often suffer from Thought Leaps due to experts
omitting intermediate steps, which negatively impacts model learning and
generalization. We propose the CoT Thought Leap Bridge Task, which aims to
automatically detect leaps and generate missing intermediate reasoning steps to
restore the completeness and coherence of CoT. To facilitate this, we
constructed a specialized training dataset called ScaleQM+, based on the
structured ScaleQuestMath dataset, and trained CoT-Bridge to bridge thought
leaps. Through comprehensive experiments on mathematical reasoning benchmarks,
we demonstrate that models fine-tuned on bridged datasets consistently
outperform those trained on original datasets, with improvements of up to
+5.87% on NuminaMath. Our approach effectively enhances distilled data (+3.02%)
and provides better starting points for reinforcement learning (+3.1%),
functioning as a plug-and-play module compatible with existing optimization
techniques. Furthermore, CoT-Bridge demonstrate improved generalization to
out-of-domain logical reasoning tasks, confirming that enhancing reasoning
completeness yields broadly applicable benefits.Summary
AI-Generated Summary