ChatPaper.aiChatPaper

추론 모델이 사고 사회를 생성하다

Reasoning Models Generate Societies of Thought

January 15, 2026
저자: Junsol Kim, Shiyang Lai, Nino Scherrer, Blaise Agüera y Arcas, James Evans
cs.AI

초록

대규모 언어 모델은 다양한 영역에서 놀라운 능력을 달성했으나, 정교한 추론을 뒷받침하는 메커니즘은 여전히 베일에 싸여 있습니다. 최근의 추론 모델들은 긴 사고 사슬을 통한 확장된 계산 덕분에 복잡한 인지 과제에서 비교 가능한 지시어 최적화 모델들을 능가하는 성능을 보입니다. 본 연구에서는 향상된 추론이 단순히 확장된 계산에서 비롯되는 것이 아니라, 서로 다른 성격 특성과 분야 전문성을 지닌 내부 인식적 관점들 간의 다양화와 논쟁을 가능하게 하는 다중 에이전트형 상호작용, 즉 '사고의 사회'를 시뮬레이션함으로써 나타난다는 것을 보여줍니다. 추론 흔적에 정량 분석 및 기계론적 해석 가능성 방법을 적용한 결과, DeepSeek-R1 및 QwQ-32B와 같은 추론 모델들이 지시어 최적화 모델들보다 훨씬 더 큰 관점 다양성을 보이며, 추론 과정에서 이질적인 성격 및 전문성 관련 특징들 간의 더 광범위한 갈등을 활성화한다는 사실을 발견했습니다. 이 다중 에이전트 구조는 질의응답, 관점 전환, 상충되는 견해의 조정을 포함한 대화 행동과, 날카로운 주고받는 대화를 특징짓는 사회-정서적 역할에 나타나며, 이들이 함께 추론 과제의 정확도 우위를 설명합니다. 통제된 강화 학습 실험을 통해, 기본 모델들이 추론 정확도만으로 보상을 받을 경우 대화 행동을 증가시키며, 대화형 비계로 모델을 미세 조정하면 기본 모델 대비 추론 능력 향상이 가속화된다는 사실을 확인했습니다. 이러한 발견들은 사고의 사회적 조직이 해결책 공간의 효과적인 탐색을 가능하게 함을 시사합니다. 우리는 추론 모델이 체계적으로 구조화될 때 다양성이 우수한 문제 해결을 가능하게 하는 인간 집단의 집단 지성에 대한 계산적 병렬 구조를 구축한다고 제안하며, 이는 군중의 지혜를 활용하기 위한 에이전트 조직에 새로운 가능성을 제시합니다.
English
Large language models have achieved remarkable capabilities across domains, yet mechanisms underlying sophisticated reasoning remain elusive. Recent reasoning models outperform comparable instruction-tuned models on complex cognitive tasks, attributed to extended computation through longer chains of thought. Here we show that enhanced reasoning emerges not from extended computation alone, but from simulating multi-agent-like interactions -- a society of thought -- which enables diversification and debate among internal cognitive perspectives characterized by distinct personality traits and domain expertise. Through quantitative analysis and mechanistic interpretability methods applied to reasoning traces, we find that reasoning models like DeepSeek-R1 and QwQ-32B exhibit much greater perspective diversity than instruction-tuned models, activating broader conflict between heterogeneous personality- and expertise-related features during reasoning. This multi-agent structure manifests in conversational behaviors, including question-answering, perspective shifts, and the reconciliation of conflicting views, and in socio-emotional roles that characterize sharp back-and-forth conversations, together accounting for the accuracy advantage in reasoning tasks. Controlled reinforcement learning experiments reveal that base models increase conversational behaviors when rewarded solely for reasoning accuracy, and fine-tuning models with conversational scaffolding accelerates reasoning improvement over base models. These findings indicate that the social organization of thought enables effective exploration of solution spaces. We suggest that reasoning models establish a computational parallel to collective intelligence in human groups, where diversity enables superior problem-solving when systematically structured, which suggests new opportunities for agent organization to harness the wisdom of crowds.
PDF52January 20, 2026