ChatPaper.aiChatPaper

생각의 분자 구조: 장련사 사고 추론의 위상학적 매핑

The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning

January 9, 2026
저자: Qiguang Chen, Yantao Du, Ziniu Li, Jinhao Liu, Songyao Duan, Jiarui Guo, Minghao Liu, Jiaheng Liu, Tong Yang, Ge Zhang, Libo Qin, Wanxiang Che, Wenhao Huang
cs.AI

초록

대규모 언어 모델(LLM)은 인간 또는 비-장사고(非-Long-CoT) LLM 모방을 통해 효과적인 장사고(Long CoT) 추론을 학습하는 데 종종 실패합니다. 이를 이해하기 위해 우리는 효과적이고 학습 가능한 장사고 궤적이 통합된 관점에서 안정적인 분자적 구조를 가지며, 이 구조가 세 가지 상호작용 유형(심층 추론[공유결합 유사], 자기 성찰[수소결합 유사], 자기 탐색[반데르발스 힘 유사])에 의해 형성된다고 제안합니다. 증류된 궤적 분석 결과, 이러한 구조는 키워드 모방이 아닌 장사고 미세 조정 과정에서 나타남을 확인했습니다. 우리는 '효과적 의미 이성질체(Effective Semantic Isomers)' 개념을 도입하고, 빠른 엔트로피 수렴을 촉진하는 결합만이 안정적인 장사고 학습을 지원하며 구조적 경쟁은 학습을 저해함을 보여줍니다. 이러한 발견을 바탕으로, 효과적인 장사고 구조 합성을 유도하는 분포-전이-그래프 방법인 Mole-Syn을 제시합니다. 이 방법은 다양한 벤치마크에서 성능과 강화학습 안정성을 모두 향상시켰습니다.
English
Large language models (LLMs) often fail to learn effective long chain-of-thought (Long CoT) reasoning from human or non-Long-CoT LLMs imitation. To understand this, we propose that effective and learnable Long CoT trajectories feature stable molecular-like structures in unified view, which are formed by three interaction types: Deep-Reasoning (covalent-like), Self-Reflection (hydrogen-bond-like), and Self-Exploration (van der Waals-like). Analysis of distilled trajectories reveals these structures emerge from Long CoT fine-tuning, not keyword imitation. We introduce Effective Semantic Isomers and show that only bonds promoting fast entropy convergence support stable Long CoT learning, while structural competition impairs training. Drawing on these findings, we present Mole-Syn, a distribution-transfer-graph method that guides synthesis of effective Long CoT structures, boosting performance and RL stability across benchmarks.
PDF381January 13, 2026