Pensez sur le vif : Pensée adaptative via l'apprentissage par renforcement pour les agents sociaux

papers.abstract

La simulation efficace de l'intelligence sociale nécessite que les agents linguistiques ajustent dynamiquement la profondeur de raisonnement, une capacité notablement absente dans les approches actuelles. Alors que les méthodes existantes manquent soit de ce type de capacité de raisonnement, soit imposent un raisonnement uniforme en chaîne de pensée longue pour tous les scénarios, entraînant une utilisation excessive de tokens et une simulation sociale inappropriée. Dans cet article, nous proposons l'Apprentissage Adaptatif de Mode (Adaptive Mode Learning, AML) qui sélectionne stratégiquement parmi quatre modes de pensée (réaction intuitive → contemplation profonde) en fonction du contexte en temps réel. L'innovation centrale de notre cadre, l'algorithme d'Optimisation de Politique de Mode Adaptatif (Adaptive Mode Policy Optimization, AMPO), introduit trois avancées clés par rapport aux méthodes existantes : (1) Conception de modes de pensée multi-granulaires, (2) Commutation de mode sensible au contexte durant les interactions sociales, et (3) Raisonnement efficace en tokens via un traitement adaptatif en profondeur. Des expériences approfondies sur des tâches d'intelligence sociale confirment qu'AML atteint une performance de tâche 15,6 % supérieure aux méthodes de pointe. Notamment, notre méthode surpasse GRPO de 7,0 % avec des chaînes de raisonnement 32,8 % plus courtes. Ces résultats démontrent que la sélection de mode de pensée sensible au contexte, telle qu'implémentée dans AMPO, permet un raisonnement adaptatif plus proche de celui des humains que l'approche à profondeur fixe de GRPO.

English

Effective social intelligence simulation requires language agents to dynamically adjust reasoning depth, a capability notably absent in current approaches. While existing methods either lack this kind of reasoning capability or enforce uniform long chain-of-thought reasoning across all scenarios, resulting in excessive token usage and inappropriate social simulation. In this paper, we propose Adaptive Mode Learning (AML) that strategically selects from four thinking modes (intuitive reaction rightarrow deep contemplation) based on real-time context. Our framework's core innovation, the Adaptive Mode Policy Optimization (AMPO) algorithm, introduces three key advancements over existing methods: (1) Multi-granular thinking mode design, (2) Context-aware mode switching across social interaction, and (3) Token-efficient reasoning via depth-adaptive processing. Extensive experiments on social intelligence tasks confirm that AML achieves 15.6% higher task performance than state-of-the-art methods. Notably, our method outperforms GRPO by 7.0% with 32.8% shorter reasoning chains. These results demonstrate that context-sensitive thinking mode selection, as implemented in AMPO, enables more human-like adaptive reasoning than GRPO's fixed-depth approach

Pensez sur le vif : Pensée adaptative via l'apprentissage par renforcement pour les agents sociaux

Think on your Feet: Adaptive Thinking via Reinforcement Learning for Social Agents

papers.abstract

Support