Pense Rápido: Pensamento Adaptativo via Aprendizado por Reforço para Agentes Sociais
Think on your Feet: Adaptive Thinking via Reinforcement Learning for Social Agents
May 4, 2025
Autores: Minzheng Wang, Yongbin Li, Haobo Wang, Xinghua Zhang, Nan Xu, Bingli Wu, Fei Huang, Haiyang Yu, Wenji Mao
cs.AI
Resumo
A simulação eficaz de inteligência social requer que agentes de linguagem ajustem dinamicamente a profundidade do raciocínio, uma capacidade notavelmente ausente nas abordagens atuais. Enquanto os métodos existentes ou carecem desse tipo de capacidade de raciocínio ou impõem uma cadeia de pensamento longa e uniforme em todos os cenários, resultando em uso excessivo de tokens e simulação social inadequada. Neste artigo, propomos o Aprendizado de Modo Adaptativo (AML, do inglês *Adaptive Mode Learning*), que seleciona estrategicamente entre quatro modos de pensamento (reação intuitiva → contemplação profunda) com base no contexto em tempo real. A inovação central de nosso framework, o algoritmo de Otimização de Política de Modo Adaptativo (AMPO, do inglês *Adaptive Mode Policy Optimization*), introduz três avanços principais em relação aos métodos existentes: (1) Design de modo de pensamento multigranular, (2) Troca de modo consciente do contexto durante a interação social e (3) Raciocínio eficiente em tokens por meio de processamento adaptativo à profundidade. Experimentos extensivos em tarefas de inteligência social confirmam que o AML alcança um desempenho 15,6% superior aos métodos state-of-the-art. Notavelmente, nosso método supera o GRPO em 7,0% com cadeias de raciocínio 32,8% mais curtas. Esses resultados demonstram que a seleção de modo de pensamento sensível ao contexto, conforme implementada no AMPO, permite um raciocínio adaptativo mais semelhante ao humano do que a abordagem de profundidade fixa do GRPO.
English
Effective social intelligence simulation requires language agents to
dynamically adjust reasoning depth, a capability notably absent in current
approaches. While existing methods either lack this kind of reasoning
capability or enforce uniform long chain-of-thought reasoning across all
scenarios, resulting in excessive token usage and inappropriate social
simulation. In this paper, we propose Adaptive Mode
Learning (AML) that strategically selects from four
thinking modes (intuitive reaction rightarrow deep contemplation) based on
real-time context. Our framework's core innovation, the Adaptive
Mode Policy Optimization (AMPO)
algorithm, introduces three key advancements over existing methods: (1)
Multi-granular thinking mode design, (2) Context-aware mode switching across
social interaction, and (3) Token-efficient reasoning via depth-adaptive
processing. Extensive experiments on social intelligence tasks confirm that AML
achieves 15.6% higher task performance than state-of-the-art methods. Notably,
our method outperforms GRPO by 7.0% with 32.8% shorter reasoning chains. These
results demonstrate that context-sensitive thinking mode selection, as
implemented in AMPO, enables more human-like adaptive reasoning than GRPO's
fixed-depth approach