ChatPaper.aiChatPaper

推論モデルが生み出す思考の社会

Reasoning Models Generate Societies of Thought

January 15, 2026
著者: Junsol Kim, Shiyang Lai, Nino Scherrer, Blaise Agüera y Arcas, James Evans
cs.AI

要旨

大規模言語モデルは様々な領域で顕著な能力を発揮しているが、高度な推論を支えるメカニズムは未解明のままである。近年の推論モデルは、複雑な認知課題において同規模の指示チューニングモデルを凌駕するが、これは長い連鎖思考による計算の延長に起因するとされる。本論文では、強化された推論能力が単なる計算の延長から生じるのではなく、個別の性格特性と領域専門性を特徴とする内部の認知的視点間での多様化と議論を可能とする「思考の社会」すなわちマルチエージェント的な相互作用のシミュレーションから創発することを示す。推論過程に量的分析と機械論的解釈可能性手法を適用した結果、DeepSeek-R1やQwQ-32Bなどの推論モデルは、指示チューニングモデルよりもはるかに多様な視点を提示し、推論過程中に異質な性格特性や専門性に関連する特徴間の広範な対立を活性化させることが明らかになった。このマルチエージェント構造は、質問応答、視点の転換、対立する見解の調整といった対話行動、および鋭いやり取りを特徴づける社会情緒的役割に現れ、推論課題における精度優位性を共同で説明する。制御強化学習実験により、基盤モデルは推論精度のみで報酬を与えられると対話行動を増加させ、対話的足場付けによる微調整は基盤モデルよりも推論改善を加速させることが示された。これらの発見は、思考の社会的組織化が解空間の効果的探索を可能にすることを示唆する。推論モデルは、体系的に構造化された場合に多様性が優れた問題解決を可能にする人間集団の集合知との計算的並行性を確立しており、群衆の知恵を活用するエージェント組織の新たな可能性を示唆する。
English
Large language models have achieved remarkable capabilities across domains, yet mechanisms underlying sophisticated reasoning remain elusive. Recent reasoning models outperform comparable instruction-tuned models on complex cognitive tasks, attributed to extended computation through longer chains of thought. Here we show that enhanced reasoning emerges not from extended computation alone, but from simulating multi-agent-like interactions -- a society of thought -- which enables diversification and debate among internal cognitive perspectives characterized by distinct personality traits and domain expertise. Through quantitative analysis and mechanistic interpretability methods applied to reasoning traces, we find that reasoning models like DeepSeek-R1 and QwQ-32B exhibit much greater perspective diversity than instruction-tuned models, activating broader conflict between heterogeneous personality- and expertise-related features during reasoning. This multi-agent structure manifests in conversational behaviors, including question-answering, perspective shifts, and the reconciliation of conflicting views, and in socio-emotional roles that characterize sharp back-and-forth conversations, together accounting for the accuracy advantage in reasoning tasks. Controlled reinforcement learning experiments reveal that base models increase conversational behaviors when rewarded solely for reasoning accuracy, and fine-tuning models with conversational scaffolding accelerates reasoning improvement over base models. These findings indicate that the social organization of thought enables effective exploration of solution spaces. We suggest that reasoning models establish a computational parallel to collective intelligence in human groups, where diversity enables superior problem-solving when systematically structured, which suggests new opportunities for agent organization to harness the wisdom of crowds.
PDF52January 20, 2026