ChatPaper.aiChatPaper

Pensa in Movimento: Pensiero Adattivo tramite Apprendimento per Rinforzo per Agenti Sociali

Think on your Feet: Adaptive Thinking via Reinforcement Learning for Social Agents

May 4, 2025
Autori: Minzheng Wang, Yongbin Li, Haobo Wang, Xinghua Zhang, Nan Xu, Bingli Wu, Fei Huang, Haiyang Yu, Wenji Mao
cs.AI

Abstract

Una simulazione efficace dell'intelligenza sociale richiede che gli agenti linguistici siano in grado di adattare dinamicamente la profondità del ragionamento, una capacità attualmente assente negli approcci esistenti. Mentre i metodi attuali o mancano di questo tipo di capacità di ragionamento o impongono una catena di pensiero uniforme e lunga in tutti gli scenari, risultando in un uso eccessivo di token e in una simulazione sociale inappropriata. In questo articolo, proponiamo l'Adaptive Mode Learning (AML), che seleziona strategicamente tra quattro modalità di pensiero (reazione intuitiva → contemplazione profonda) in base al contesto in tempo reale. L'innovazione centrale del nostro framework, l'algoritmo Adaptive Mode Policy Optimization (AMPO), introduce tre progressi chiave rispetto ai metodi esistenti: (1) Progettazione di modalità di pensiero multi-granulari, (2) Cambio di modalità contestuale durante l'interazione sociale, e (3) Ragionamento efficiente in termini di token tramite elaborazione adattiva alla profondità. Esperimenti estesi su compiti di intelligenza sociale confermano che AML raggiunge una performance del 15,6% superiore rispetto ai metodi all'avanguardia. In particolare, il nostro metodo supera GRPO del 7,0% con catene di ragionamento più brevi del 32,8%. Questi risultati dimostrano che la selezione contestuale delle modalità di pensiero, implementata in AMPO, consente un ragionamento adattivo più simile a quello umano rispetto all'approccio a profondità fissa di GRPO.
English
Effective social intelligence simulation requires language agents to dynamically adjust reasoning depth, a capability notably absent in current approaches. While existing methods either lack this kind of reasoning capability or enforce uniform long chain-of-thought reasoning across all scenarios, resulting in excessive token usage and inappropriate social simulation. In this paper, we propose Adaptive Mode Learning (AML) that strategically selects from four thinking modes (intuitive reaction rightarrow deep contemplation) based on real-time context. Our framework's core innovation, the Adaptive Mode Policy Optimization (AMPO) algorithm, introduces three key advancements over existing methods: (1) Multi-granular thinking mode design, (2) Context-aware mode switching across social interaction, and (3) Token-efficient reasoning via depth-adaptive processing. Extensive experiments on social intelligence tasks confirm that AML achieves 15.6% higher task performance than state-of-the-art methods. Notably, our method outperforms GRPO by 7.0% with 32.8% shorter reasoning chains. These results demonstrate that context-sensitive thinking mode selection, as implemented in AMPO, enables more human-like adaptive reasoning than GRPO's fixed-depth approach
PDF181May 6, 2025