Die molekulare Struktur des Denkens: Kartierung der Topologie langkausaler Denkprozesse
The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning
January 9, 2026
papers.authors: Qiguang Chen, Yantao Du, Ziniu Li, Jinhao Liu, Songyao Duan, Jiarui Guo, Minghao Liu, Jiaheng Liu, Tong Yang, Ge Zhang, Libo Qin, Wanxiang Che, Wenhao Huang
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) lernen oft keine effektiven langen Denkketten (Long CoT) durch Imitation von menschlichen oder nicht-Long-CoT-LLMs. Um dies zu verstehen, postulieren wir, dass effektive und erlernbare Long-CoT-Trajektorien in einer einheitlichen Betrachtung stabile, molekülähnliche Strukturen aufweisen, die durch drei Interaktionstypen gebildet werden: Tiefes Schlussfolgern (kovalentenartig), Selbstreflexion (wasserstoffbrückenähnlich) und Selbsterkundung (van-der-Waals-ähnlich). Analysen destillierter Trajektorien zeigen, dass diese Strukturen durch Long-CoT-Fine-Tuning entstehen und nicht durch Nachahmung von Schlüsselwörtern. Wir führen das Konzept der Effektiven Semantischen Isomere ein und zeigen, dass nur Bindungen, die eine schnelle Entropiekonvergenz fördern, stabiles Long-CoT-Lernen unterstützen, während struktureller Wettbewerb das Training beeinträchtigt. Aufbauend auf diesen Erkenntnissen stellen wir Mole-Syn vor, eine Methode basierend auf Distributions-Transfer-Graphen, welche die Synthese effektiver Long-CoT-Strukturen anleitet und so die Leistung sowie die Stabilität von Reinforcement Learning über verschiedene Benchmarks hinweg steigert.
English
Large language models (LLMs) often fail to learn effective long chain-of-thought (Long CoT) reasoning from human or non-Long-CoT LLMs imitation. To understand this, we propose that effective and learnable Long CoT trajectories feature stable molecular-like structures in unified view, which are formed by three interaction types: Deep-Reasoning (covalent-like), Self-Reflection (hydrogen-bond-like), and Self-Exploration (van der Waals-like). Analysis of distilled trajectories reveals these structures emerge from Long CoT fine-tuning, not keyword imitation. We introduce Effective Semantic Isomers and show that only bonds promoting fast entropy convergence support stable Long CoT learning, while structural competition impairs training. Drawing on these findings, we present Mole-Syn, a distribution-transfer-graph method that guides synthesis of effective Long CoT structures, boosting performance and RL stability across benchmarks.