ChatPaper.aiChatPaper

Pense Rápido: Pensamento Adaptativo via Aprendizado por Reforço para Agentes Sociais

Think on your Feet: Adaptive Thinking via Reinforcement Learning for Social Agents

May 4, 2025
Autores: Minzheng Wang, Yongbin Li, Haobo Wang, Xinghua Zhang, Nan Xu, Bingli Wu, Fei Huang, Haiyang Yu, Wenji Mao
cs.AI

Resumo

A simulação eficaz de inteligência social requer que agentes de linguagem ajustem dinamicamente a profundidade do raciocínio, uma capacidade notavelmente ausente nas abordagens atuais. Enquanto os métodos existentes ou carecem desse tipo de capacidade de raciocínio ou impõem uma cadeia de pensamento longa e uniforme em todos os cenários, resultando em uso excessivo de tokens e simulação social inadequada. Neste artigo, propomos o Aprendizado de Modo Adaptativo (AML, do inglês *Adaptive Mode Learning*), que seleciona estrategicamente entre quatro modos de pensamento (reação intuitiva → contemplação profunda) com base no contexto em tempo real. A inovação central de nosso framework, o algoritmo de Otimização de Política de Modo Adaptativo (AMPO, do inglês *Adaptive Mode Policy Optimization*), introduz três avanços principais em relação aos métodos existentes: (1) Design de modo de pensamento multigranular, (2) Troca de modo consciente do contexto durante a interação social e (3) Raciocínio eficiente em tokens por meio de processamento adaptativo à profundidade. Experimentos extensivos em tarefas de inteligência social confirmam que o AML alcança um desempenho 15,6% superior aos métodos state-of-the-art. Notavelmente, nosso método supera o GRPO em 7,0% com cadeias de raciocínio 32,8% mais curtas. Esses resultados demonstram que a seleção de modo de pensamento sensível ao contexto, conforme implementada no AMPO, permite um raciocínio adaptativo mais semelhante ao humano do que a abordagem de profundidade fixa do GRPO.
English
Effective social intelligence simulation requires language agents to dynamically adjust reasoning depth, a capability notably absent in current approaches. While existing methods either lack this kind of reasoning capability or enforce uniform long chain-of-thought reasoning across all scenarios, resulting in excessive token usage and inappropriate social simulation. In this paper, we propose Adaptive Mode Learning (AML) that strategically selects from four thinking modes (intuitive reaction rightarrow deep contemplation) based on real-time context. Our framework's core innovation, the Adaptive Mode Policy Optimization (AMPO) algorithm, introduces three key advancements over existing methods: (1) Multi-granular thinking mode design, (2) Context-aware mode switching across social interaction, and (3) Token-efficient reasoning via depth-adaptive processing. Extensive experiments on social intelligence tasks confirm that AML achieves 15.6% higher task performance than state-of-the-art methods. Notably, our method outperforms GRPO by 7.0% with 32.8% shorter reasoning chains. These results demonstrate that context-sensitive thinking mode selection, as implemented in AMPO, enables more human-like adaptive reasoning than GRPO's fixed-depth approach
PDF181May 6, 2025