Pensez sur le vif : Pensée adaptative via l'apprentissage par renforcement pour les agents sociaux
Think on your Feet: Adaptive Thinking via Reinforcement Learning for Social Agents
May 4, 2025
papers.authors: Minzheng Wang, Yongbin Li, Haobo Wang, Xinghua Zhang, Nan Xu, Bingli Wu, Fei Huang, Haiyang Yu, Wenji Mao
cs.AI
papers.abstract
La simulation efficace de l'intelligence sociale nécessite que les agents linguistiques ajustent dynamiquement la profondeur de raisonnement, une capacité notablement absente dans les approches actuelles. Alors que les méthodes existantes manquent soit de ce type de capacité de raisonnement, soit imposent un raisonnement uniforme en chaîne de pensée longue pour tous les scénarios, entraînant une utilisation excessive de tokens et une simulation sociale inappropriée. Dans cet article, nous proposons l'Apprentissage Adaptatif de Mode (Adaptive Mode Learning, AML) qui sélectionne stratégiquement parmi quatre modes de pensée (réaction intuitive → contemplation profonde) en fonction du contexte en temps réel. L'innovation centrale de notre cadre, l'algorithme d'Optimisation de Politique de Mode Adaptatif (Adaptive Mode Policy Optimization, AMPO), introduit trois avancées clés par rapport aux méthodes existantes : (1) Conception de modes de pensée multi-granulaires, (2) Commutation de mode sensible au contexte durant les interactions sociales, et (3) Raisonnement efficace en tokens via un traitement adaptatif en profondeur. Des expériences approfondies sur des tâches d'intelligence sociale confirment qu'AML atteint une performance de tâche 15,6 % supérieure aux méthodes de pointe. Notamment, notre méthode surpasse GRPO de 7,0 % avec des chaînes de raisonnement 32,8 % plus courtes. Ces résultats démontrent que la sélection de mode de pensée sensible au contexte, telle qu'implémentée dans AMPO, permet un raisonnement adaptatif plus proche de celui des humains que l'approche à profondeur fixe de GRPO.
English
Effective social intelligence simulation requires language agents to
dynamically adjust reasoning depth, a capability notably absent in current
approaches. While existing methods either lack this kind of reasoning
capability or enforce uniform long chain-of-thought reasoning across all
scenarios, resulting in excessive token usage and inappropriate social
simulation. In this paper, we propose Adaptive Mode
Learning (AML) that strategically selects from four
thinking modes (intuitive reaction rightarrow deep contemplation) based on
real-time context. Our framework's core innovation, the Adaptive
Mode Policy Optimization (AMPO)
algorithm, introduces three key advancements over existing methods: (1)
Multi-granular thinking mode design, (2) Context-aware mode switching across
social interaction, and (3) Token-efficient reasoning via depth-adaptive
processing. Extensive experiments on social intelligence tasks confirm that AML
achieves 15.6% higher task performance than state-of-the-art methods. Notably,
our method outperforms GRPO by 7.0% with 32.8% shorter reasoning chains. These
results demonstrate that context-sensitive thinking mode selection, as
implemented in AMPO, enables more human-like adaptive reasoning than GRPO's
fixed-depth approach