ChatPaper.aiChatPaper

De Moleculaire Structuur van Gedachten: Het In Kaart Brengen van de Topologie van Lange Redeneerketens

The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning

January 9, 2026
Auteurs: Qiguang Chen, Yantao Du, Ziniu Li, Jinhao Liu, Songyao Duan, Jiarui Guo, Minghao Liu, Jiaheng Liu, Tong Yang, Ge Zhang, Libo Qin, Wanxiang Che, Wenhao Huang
cs.AI

Samenvatting

Grote taalmodellen (LLM's) slagen er vaak niet in om effectieve lange redeneerketens (Long CoT) aan te leren door imitatie van menselijke of niet-Long-CoT LLM's. Om dit te begrijpen, stellen wij voor dat effectieve en aanleerbare Long CoT-trajecten in een uniforme weergave stabiele, molecuulachtige structuren vertonen, die worden gevormd door drie interactietypes: Diep Redeneren (covalent-achtig), Zelfreflectie (waterstofbrug-achtig) en Zelfverkenning (van der Waals-achtig). Analyse van gedistilleerde trajecten onthult dat deze structuren ontstaan uit Long CoT-finetuning, niet uit imitatie van sleutelwoorden. We introduceren Effectieve Semantische Isomeren en tonen aan dat alleen bindingen die snelle entropieconvergentie bevorderen, een stabiele Long CoT-aanleerbaarheid ondersteunen, terwijl structurele competitie de training belemmert. Gebaseerd op deze bevindingen presenteren we Mole-Syn, een distributie-overdrachtsgrafiek-methode die de synthese van effectieve Long CoT-structuren begeleidt, wat de prestaties en RL-stabiliteit op verschillende benchmarks aanzienlijk verbetert.
English
Large language models (LLMs) often fail to learn effective long chain-of-thought (Long CoT) reasoning from human or non-Long-CoT LLMs imitation. To understand this, we propose that effective and learnable Long CoT trajectories feature stable molecular-like structures in unified view, which are formed by three interaction types: Deep-Reasoning (covalent-like), Self-Reflection (hydrogen-bond-like), and Self-Exploration (van der Waals-like). Analysis of distilled trajectories reveals these structures emerge from Long CoT fine-tuning, not keyword imitation. We introduce Effective Semantic Isomers and show that only bonds promoting fast entropy convergence support stable Long CoT learning, while structural competition impairs training. Drawing on these findings, we present Mole-Syn, a distribution-transfer-graph method that guides synthesis of effective Long CoT structures, boosting performance and RL stability across benchmarks.
PDF472January 16, 2026