Redeneermodellen Genereren Denkcollectieven

Samenvatting

Grote taalmodellen hebben opmerkelijke capaciteiten bereikt in diverse domeinen, maar de mechanismen die ten grondslag liggen aan geavanceerd redeneren blijven ongrijpbaar. Recente redeneermodellen presteren beter dan vergelijkbare instructie-afgestemde modellen bij complexe cognitieve taken, wat wordt toegeschreven aan uitgebreidere berekeningen via langere denkketens. Hier tonen we aan dat verbeterd redeneren niet alleen voortkomt uit uitgebreidere berekening, maar uit het simuleren van multi-agent-achtige interacties – een *samenleving van denken* – die diversificatie en debat mogelijk maakt tussen interne cognitieve perspectieven die worden gekenmerkt door onderscheidende persoonlijkheidstrekken en domeinexpertise. Door middel van kwantitatieve analyse en mechanistische interpreteerbaarheidsmethoden toegepast op redeneersporen, vinden we dat redeneermodellen zoals DeepSeek-R1 en QwQ-32B een veel grotere perspectiefdiversiteit vertonen dan instructie-afgestemde modellen, waarbij ze een breder conflict activeren tussen heterogene, met persoonlijkheid en expertise verbonden kenmerken tijdens het redeneren. Deze multi-agentstructuur manifesteert zich in conversationeel gedrag, waaronder vraag-antwoordinteracties, perspectiefwisselingen en het verzoenen van tegenstrijdige opvattingen, en in sociaal-emotionele rollen die scherpe heen-en-weergesprekken kenmerken, wat gezamenlijk het nauwkeurigheidsvoordeel bij redeneertaken verklaart. Gecontroleerde reinforcement learning-experimenten onthullen dat basismodellen conversationeel gedrag versterken wanneer ze uitsluitend worden beloond voor redeneernauwkeurigheid, en het finetunen van modellen met conversationele ondersteuning versnelt de verbetering in redeneren ten opzichte van basismodellen. Deze bevindingen geven aan dat de sociale organisatie van denken effectieve verkenning van oplossingsruimten mogelijk maakt. Wij suggereren dat redeneermodellen een computationeel equivalent vormen voor collectieve intelligentie in menselijke groepen, waar diversiteit superieure probleemoplossing mogelijk maakt wanneer deze systematisch gestructureerd is, wat nieuwe mogelijkheden suggereert voor agentorganisatie om de wijsheid van de menigte te benutten.

English

Large language models have achieved remarkable capabilities across domains, yet mechanisms underlying sophisticated reasoning remain elusive. Recent reasoning models outperform comparable instruction-tuned models on complex cognitive tasks, attributed to extended computation through longer chains of thought. Here we show that enhanced reasoning emerges not from extended computation alone, but from simulating multi-agent-like interactions -- a society of thought -- which enables diversification and debate among internal cognitive perspectives characterized by distinct personality traits and domain expertise. Through quantitative analysis and mechanistic interpretability methods applied to reasoning traces, we find that reasoning models like DeepSeek-R1 and QwQ-32B exhibit much greater perspective diversity than instruction-tuned models, activating broader conflict between heterogeneous personality- and expertise-related features during reasoning. This multi-agent structure manifests in conversational behaviors, including question-answering, perspective shifts, and the reconciliation of conflicting views, and in socio-emotional roles that characterize sharp back-and-forth conversations, together accounting for the accuracy advantage in reasoning tasks. Controlled reinforcement learning experiments reveal that base models increase conversational behaviors when rewarded solely for reasoning accuracy, and fine-tuning models with conversational scaffolding accelerates reasoning improvement over base models. These findings indicate that the social organization of thought enables effective exploration of solution spaces. We suggest that reasoning models establish a computational parallel to collective intelligence in human groups, where diversity enables superior problem-solving when systematically structured, which suggests new opportunities for agent organization to harness the wisdom of crowds.

Redeneermodellen Genereren Denkcollectieven

Reasoning Models Generate Societies of Thought

Samenvatting

Support