La structure moléculaire de la pensée : Cartographier la topologie du raisonnement par chaîne de pensée longue
The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning
January 9, 2026
papers.authors: Qiguang Chen, Yantao Du, Ziniu Li, Jinhao Liu, Songyao Duan, Jiarui Guo, Minghao Liu, Jiaheng Liu, Tong Yang, Ge Zhang, Libo Qin, Wanxiang Che, Wenhao Huang
cs.AI
papers.abstract
Les grands modèles de langage (LLM) échouent souvent à acquérir un raisonnement efficace en chaîne de pensée longue (Long CoT) par imitation d'humains ou de LLM non spécialisés. Pour comprendre ce phénomène, nous proposons que les trajectoires Long CoT efficaces et apprenables présentent des structures moléculaires stables dans une vision unifiée, formées par trois types d'interactions : raisonnement profond (de type liaison covalente), auto-réflexion (de type liaison hydrogène) et auto-exploration (de type van der Waals). L'analyse des trajectoires distillées révèle que ces structures émergent du fine-tuning Long CoT, et non d'une imitation de mots-clés. Nous introduisons la notion d'isomères sémantiques efficaces et montrons que seules les liaisons favorisant une convergence rapide de l'entropie soutiennent un apprentissage Long CoT stable, tandis que la compétition structurelle nuit à l'entraînement. Forts de ces résultats, nous présentons Mole-Syn, une méthode par graphe de transfert de distribution qui guide la synthèse de structures Long CoT efficaces, améliorant les performances et la stabilité de l'apprentissage par renforcement sur divers benchmarks.
English
Large language models (LLMs) often fail to learn effective long chain-of-thought (Long CoT) reasoning from human or non-Long-CoT LLMs imitation. To understand this, we propose that effective and learnable Long CoT trajectories feature stable molecular-like structures in unified view, which are formed by three interaction types: Deep-Reasoning (covalent-like), Self-Reflection (hydrogen-bond-like), and Self-Exploration (van der Waals-like). Analysis of distilled trajectories reveals these structures emerge from Long CoT fine-tuning, not keyword imitation. We introduce Effective Semantic Isomers and show that only bonds promoting fast entropy convergence support stable Long CoT learning, while structural competition impairs training. Drawing on these findings, we present Mole-Syn, a distribution-transfer-graph method that guides synthesis of effective Long CoT structures, boosting performance and RL stability across benchmarks.