Denk op je Voeten: Adaptief Denken via Reinforcement Learning voor Sociale Agents

Samenvatting

Effectieve simulatie van sociale intelligentie vereist dat taalagentschappen dynamisch de redeneerdiepte kunnen aanpassen, een capaciteit die opvallend afwezig is in huidige benaderingen. Terwijl bestaande methodes ofwel dit soort redeneervermogen missen ofwel een uniforme lange keten-van-gedachten-redenering afdwingen in alle scenario's, wat resulteert in excessief tokengebruik en ongepaste sociale simulatie. In dit artikel stellen we Adaptieve Modus Leren (AML) voor, dat strategisch selecteert uit vier denkmodi (intuïtieve reactie → diepe contemplatie) op basis van real-time context. De kerninnovatie van ons framework, het Adaptieve Modus Beleidsoptimalisatie (AMPO) algoritme, introduceert drie belangrijke verbeteringen ten opzichte van bestaande methodes: (1) Multi-granulaire denkmodusontwerp, (2) Contextbewuste modusschakeling tijdens sociale interactie, en (3) Token-efficiënt redeneren via diepte-adaptieve verwerking. Uitgebreide experimenten op taken voor sociale intelligentie bevestigen dat AML een 15,6% hogere taakprestatie bereikt dan state-of-the-art methodes. Opmerkelijk is dat onze methode GRPO met 7,0% overtreft met 32,8% kortere redeneerketens. Deze resultaten tonen aan dat contextgevoelige selectie van denkmodi, zoals geïmplementeerd in AMPO, mensachtiger adaptief redeneren mogelijk maakt dan de vaste-diepte benadering van GRPO.

English

Effective social intelligence simulation requires language agents to dynamically adjust reasoning depth, a capability notably absent in current approaches. While existing methods either lack this kind of reasoning capability or enforce uniform long chain-of-thought reasoning across all scenarios, resulting in excessive token usage and inappropriate social simulation. In this paper, we propose Adaptive Mode Learning (AML) that strategically selects from four thinking modes (intuitive reaction rightarrow deep contemplation) based on real-time context. Our framework's core innovation, the Adaptive Mode Policy Optimization (AMPO) algorithm, introduces three key advancements over existing methods: (1) Multi-granular thinking mode design, (2) Context-aware mode switching across social interaction, and (3) Token-efficient reasoning via depth-adaptive processing. Extensive experiments on social intelligence tasks confirm that AML achieves 15.6% higher task performance than state-of-the-art methods. Notably, our method outperforms GRPO by 7.0% with 32.8% shorter reasoning chains. These results demonstrate that context-sensitive thinking mode selection, as implemented in AMPO, enables more human-like adaptive reasoning than GRPO's fixed-depth approach

Denk op je Voeten: Adaptief Denken via Reinforcement Learning voor Sociale Agents

Think on your Feet: Adaptive Thinking via Reinforcement Learning for Social Agents

Samenvatting

Support