La Struttura Molecolare del Pensiero: Mappatura della Topologia del Ragionamento a Catena Lunga

Abstract

I grandi modelli linguistici (LLM) spesso non riescono ad apprendere un ragionamento efficace a lunga catena di pensiero (Long CoT) dall'imitazione di dati umani o di LLM non specializzati in Long CoT. Per comprendere questo fenomeno, proponiamo che le traiettorie Long CoT efficaci e apprendibili presentino, in una visione unificata, strutture stabili simili a molecole, formate da tre tipi di interazione: Ragionamento Profondo (simile a legame covalente), Auto-Riflessione (simile a legame a idrogeno) e Auto-Esplorazione (simile a forza di van der Waals). L'analisi delle traiettorie distillate rivela che queste strutture emergono dalla messa a punto (fine-tuning) Long CoT, non dall'imitazione di parole chiave. Introduciamo il concetto di Isomeri Semantici Efficaci e dimostriamo che solo i legami che promuovono una rapida convergenza dell'entropia supportano un apprendimento Long CoT stabile, mentre la competizione strutturale compromette l'addestramento. Sulla base di questi risultati, presentiamo Mole-Syn, un metodo basato su grafo di trasferimento della distribuzione che guida la sintesi di strutture Long CoT efficaci, migliorando le prestazioni e la stabilità dell'apprendimento per rinforzo (RL) su diversi benchmark.

English

Large language models (LLMs) often fail to learn effective long chain-of-thought (Long CoT) reasoning from human or non-Long-CoT LLMs imitation. To understand this, we propose that effective and learnable Long CoT trajectories feature stable molecular-like structures in unified view, which are formed by three interaction types: Deep-Reasoning (covalent-like), Self-Reflection (hydrogen-bond-like), and Self-Exploration (van der Waals-like). Analysis of distilled trajectories reveals these structures emerge from Long CoT fine-tuning, not keyword imitation. We introduce Effective Semantic Isomers and show that only bonds promoting fast entropy convergence support stable Long CoT learning, while structural competition impairs training. Drawing on these findings, we present Mole-Syn, a distribution-transfer-graph method that guides synthesis of effective Long CoT structures, boosting performance and RL stability across benchmarks.

La Struttura Molecolare del Pensiero: Mappatura della Topologia del Ragionamento a Catena Lunga

The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning

Abstract

Support