Denk op je Voeten: Adaptief Denken via Reinforcement Learning voor Sociale Agents
Think on your Feet: Adaptive Thinking via Reinforcement Learning for Social Agents
May 4, 2025
Auteurs: Minzheng Wang, Yongbin Li, Haobo Wang, Xinghua Zhang, Nan Xu, Bingli Wu, Fei Huang, Haiyang Yu, Wenji Mao
cs.AI
Samenvatting
Effectieve simulatie van sociale intelligentie vereist dat taalagentschappen
dynamisch de redeneerdiepte kunnen aanpassen, een capaciteit die opvallend
afwezig is in huidige benaderingen. Terwijl bestaande methodes ofwel dit soort
redeneervermogen missen ofwel een uniforme lange keten-van-gedachten-redenering
afdwingen in alle scenario's, wat resulteert in excessief tokengebruik en
ongepaste sociale simulatie. In dit artikel stellen we Adaptieve Modus
Leren (AML) voor, dat strategisch selecteert uit vier
denkmodi (intuïtieve reactie → diepe contemplatie) op basis van
real-time context. De kerninnovatie van ons framework, het Adaptieve
Modus Beleidsoptimalisatie (AMPO)
algoritme, introduceert drie belangrijke verbeteringen ten opzichte van
bestaande methodes: (1) Multi-granulaire denkmodusontwerp, (2) Contextbewuste
modusschakeling tijdens sociale interactie, en (3) Token-efficiënt redeneren
via diepte-adaptieve verwerking. Uitgebreide experimenten op taken voor sociale
intelligentie bevestigen dat AML een 15,6% hogere taakprestatie bereikt dan
state-of-the-art methodes. Opmerkelijk is dat onze methode GRPO met 7,0%
overtreft met 32,8% kortere redeneerketens. Deze resultaten tonen aan dat
contextgevoelige selectie van denkmodi, zoals geïmplementeerd in AMPO,
mensachtiger adaptief redeneren mogelijk maakt dan de vaste-diepte benadering
van GRPO.
English
Effective social intelligence simulation requires language agents to
dynamically adjust reasoning depth, a capability notably absent in current
approaches. While existing methods either lack this kind of reasoning
capability or enforce uniform long chain-of-thought reasoning across all
scenarios, resulting in excessive token usage and inappropriate social
simulation. In this paper, we propose Adaptive Mode
Learning (AML) that strategically selects from four
thinking modes (intuitive reaction rightarrow deep contemplation) based on
real-time context. Our framework's core innovation, the Adaptive
Mode Policy Optimization (AMPO)
algorithm, introduces three key advancements over existing methods: (1)
Multi-granular thinking mode design, (2) Context-aware mode switching across
social interaction, and (3) Token-efficient reasoning via depth-adaptive
processing. Extensive experiments on social intelligence tasks confirm that AML
achieves 15.6% higher task performance than state-of-the-art methods. Notably,
our method outperforms GRPO by 7.0% with 32.8% shorter reasoning chains. These
results demonstrate that context-sensitive thinking mode selection, as
implemented in AMPO, enables more human-like adaptive reasoning than GRPO's
fixed-depth approach