Молекулярная структура мышления: картирование топологии длинных цепочек рассуждений
The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning
January 9, 2026
Авторы: Qiguang Chen, Yantao Du, Ziniu Li, Jinhao Liu, Songyao Duan, Jiarui Guo, Minghao Liu, Jiaheng Liu, Tong Yang, Ge Zhang, Libo Qin, Wanxiang Che, Wenhao Huang
cs.AI
Аннотация
Крупные языковые модели (LLM) часто не могут освоить эффективное длинное цепочечное рассуждение (Long CoT) путем имитации человека или LLM, не использующих Long CoT. Для понимания этого феномена мы предполагаем, что эффективные и доступные для обучения траектории Long CoT обладают стабильной молекулоподобной структурой в едином представлении, которая формируется тремя типами взаимодействий: глубинное рассуждение (ковалентноподобное), саморефлексия (водородно-связноподобное) и самоисследование (ван-дер-ваальсоподобное). Анализ дистиллированных траекторий показывает, что эти структуры возникают в результате тонкой настройки на Long CoT, а не имитации ключевых слов. Мы вводим концепцию эффективных семантических изомеров и показываем, что только связи, способствующие быстрой сходимости энтропии, поддерживают стабильное обучение Long CoT, в то время как структурная конкуренция нарушает процесс обучения. Опираясь на эти выводы, мы представляем Mole-Syn — метод графа переноса распределения, который направляет синтез эффективных структур Long CoT, повышая производительность и стабильность обучения с подкреплением на различных тестовых наборах.
English
Large language models (LLMs) often fail to learn effective long chain-of-thought (Long CoT) reasoning from human or non-Long-CoT LLMs imitation. To understand this, we propose that effective and learnable Long CoT trajectories feature stable molecular-like structures in unified view, which are formed by three interaction types: Deep-Reasoning (covalent-like), Self-Reflection (hydrogen-bond-like), and Self-Exploration (van der Waals-like). Analysis of distilled trajectories reveals these structures emerge from Long CoT fine-tuning, not keyword imitation. We introduce Effective Semantic Isomers and show that only bonds promoting fast entropy convergence support stable Long CoT learning, while structural competition impairs training. Drawing on these findings, we present Mole-Syn, a distribution-transfer-graph method that guides synthesis of effective Long CoT structures, boosting performance and RL stability across benchmarks.