思考の分子構造:長い連鎖思考推論のトポロジーをマッピングする
The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning
January 9, 2026
著者: Qiguang Chen, Yantao Du, Ziniu Li, Jinhao Liu, Songyao Duan, Jiarui Guo, Minghao Liu, Jiaheng Liu, Tong Yang, Ge Zhang, Libo Qin, Wanxiang Che, Wenhao Huang
cs.AI
要旨
大規模言語モデル(LLM)は、人間や非長鎖思考連鎖(Long CoT)LLMの模倣から効果的な長鎖思考連鎖推論を学習することにしばしば失敗する。この問題を理解するため、我々は「効果的かつ学習可能なLong CoT軌道は、統一的な視点において分子様の安定構造を有する」という仮説を提案する。この構造は3種類の相互作用によって形成される:深層推論(共有結合様)、自己内省(水素結合様)、自己探索(ファンデルワールス力様)。蒸留された軌道の分析により、これらの構造がキーワード模倣ではなくLong CoTファインチューニングから創発することが明らかとなった。我々は「有効意味異性体」の概念を導入し、高速なエントロピー収束を促進する結合のみが安定したLong CoT学習を支え、構造間競合が訓練を阻害することを示す。これらの知見に基づき、効果的Long CoT構造の合成を誘導する分布転移グラフ手法「Mole-Syn」を提案する。本手法は複数ベンチマークにおいて性能と強化学習の安定性を大幅に向上させた。
English
Large language models (LLMs) often fail to learn effective long chain-of-thought (Long CoT) reasoning from human or non-Long-CoT LLMs imitation. To understand this, we propose that effective and learnable Long CoT trajectories feature stable molecular-like structures in unified view, which are formed by three interaction types: Deep-Reasoning (covalent-like), Self-Reflection (hydrogen-bond-like), and Self-Exploration (van der Waals-like). Analysis of distilled trajectories reveals these structures emerge from Long CoT fine-tuning, not keyword imitation. We introduce Effective Semantic Isomers and show that only bonds promoting fast entropy convergence support stable Long CoT learning, while structural competition impairs training. Drawing on these findings, we present Mole-Syn, a distribution-transfer-graph method that guides synthesis of effective Long CoT structures, boosting performance and RL stability across benchmarks.