A Estrutura Molecular do Pensamento: Mapeando a Topologia do Raciocínio de Cadeia Longa de Pensamentos

Resumo

Os grandes modelos de linguagem (LLMs) frequentemente falham em aprender raciocínios eficazes de longas cadeias de pensamento (Long CoT) através da imitação de humanos ou de LLMs que não utilizam Long CoT. Para compreender este fenómeno, propomos que as trajetórias de Long CoT eficazes e aprendíveis apresentam, numa perspetiva unificada, estruturas estáveis semelhantes a moléculas, formadas por três tipos de interação: Raciocínio Profundo (semelhante a covalente), Autorreflexão (semelhante a ligação de hidrogénio) e Autoexploração (semelhante a van der Waals). A análise de trajetórias destiladas revela que estas estruturas emergem do fine-tuning com Long CoT, e não da imitação de palavras-chave. Introduzimos o conceito de Isómeros Semânticos Eficazes e demonstramos que apenas as ligações que promovem uma convergência rápida da entropia suportam uma aprendizagem estável de Long CoT, enquanto a competição estrutural prejudica o treino. Com base nestas descobertas, apresentamos o Mole-Syn, um método de grafo de transferência de distribuição que orienta a síntese de estruturas eficazes de Long CoT, melhorando o desempenho e a estabilidade do Aprendizagem por Reforço (RL) em vários benchmarks.

English

Large language models (LLMs) often fail to learn effective long chain-of-thought (Long CoT) reasoning from human or non-Long-CoT LLMs imitation. To understand this, we propose that effective and learnable Long CoT trajectories feature stable molecular-like structures in unified view, which are formed by three interaction types: Deep-Reasoning (covalent-like), Self-Reflection (hydrogen-bond-like), and Self-Exploration (van der Waals-like). Analysis of distilled trajectories reveals these structures emerge from Long CoT fine-tuning, not keyword imitation. We introduce Effective Semantic Isomers and show that only bonds promoting fast entropy convergence support stable Long CoT learning, while structural competition impairs training. Drawing on these findings, we present Mole-Syn, a distribution-transfer-graph method that guides synthesis of effective Long CoT structures, boosting performance and RL stability across benchmarks.

A Estrutura Molecular do Pensamento: Mapeando a Topologia do Raciocínio de Cadeia Longa de Pensamentos

The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning

Resumo

Support