ChatPaper.aiChatPaper

La Estructura Molecular del Pensamiento: Cartografiando la Topología del Razonamiento de Cadena de Pensamiento Extendida

The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning

January 9, 2026
Autores: Qiguang Chen, Yantao Du, Ziniu Li, Jinhao Liu, Songyao Duan, Jiarui Guo, Minghao Liu, Jiaheng Liu, Tong Yang, Ge Zhang, Libo Qin, Wanxiang Che, Wenhao Huang
cs.AI

Resumen

Los modelos de lenguaje grandes (LLM) a menudo no logran aprender un razonamiento efectivo de cadena de pensamiento larga (Long CoT) a partir de la imitación de humanos o de LLMs que no utilizan Long CoT. Para entender esto, proponemos que las trayectorias Long CoT efectivas y aprendibles presentan estructuras moleculares estables en una visión unificada, las cuales están formadas por tres tipos de interacción: Razonamiento Profundo (similar a enlace covalente), Auto-Reflexión (similar a enlace de hidrógeno) y Auto-Exploración (similar a fuerzas de van der Waals). El análisis de trayectorias destiladas revela que estas estructuras emergen del ajuste fino con Long CoT, no de la imitación de palabras clave. Introducimos el concepto de Isómeros Semánticos Efectivos y demostramos que solo los enlaces que promueven una convergencia rápida de la entropía sustentan un aprendizaje Long CoT estable, mientras que la competencia estructural perjudica el entrenamiento. Basándonos en estos hallazgos, presentamos Mole-Syn, un método de transferencia de distribución basado en grafos que guía la síntesis de estructuras Long CoT efectivas, mejorando el rendimiento y la estabilidad del aprendizaje por refuerzo en diversos puntos de referencia.
English
Large language models (LLMs) often fail to learn effective long chain-of-thought (Long CoT) reasoning from human or non-Long-CoT LLMs imitation. To understand this, we propose that effective and learnable Long CoT trajectories feature stable molecular-like structures in unified view, which are formed by three interaction types: Deep-Reasoning (covalent-like), Self-Reflection (hydrogen-bond-like), and Self-Exploration (van der Waals-like). Analysis of distilled trajectories reveals these structures emerge from Long CoT fine-tuning, not keyword imitation. We introduce Effective Semantic Isomers and show that only bonds promoting fast entropy convergence support stable Long CoT learning, while structural competition impairs training. Drawing on these findings, we present Mole-Syn, a distribution-transfer-graph method that guides synthesis of effective Long CoT structures, boosting performance and RL stability across benchmarks.
PDF381January 13, 2026