Piensa sobre la marcha: Pensamiento adaptativo mediante aprendizaje por refuerzo para agentes sociales
Think on your Feet: Adaptive Thinking via Reinforcement Learning for Social Agents
May 4, 2025
Autores: Minzheng Wang, Yongbin Li, Haobo Wang, Xinghua Zhang, Nan Xu, Bingli Wu, Fei Huang, Haiyang Yu, Wenji Mao
cs.AI
Resumen
La simulación efectiva de inteligencia social requiere que los agentes de lenguaje ajusten dinámicamente la profundidad del razonamiento, una capacidad notablemente ausente en los enfoques actuales. Mientras que los métodos existentes carecen de este tipo de capacidad de razonamiento o imponen cadenas de pensamiento largas y uniformes en todos los escenarios, lo que resulta en un uso excesivo de tokens y una simulación social inapropiada. En este artículo, proponemos el Aprendizaje de Modo Adaptativo (AML, por sus siglas en inglés), que selecciona estratégicamente entre cuatro modos de pensamiento (reacción intuitiva → contemplación profunda) basándose en el contexto en tiempo real. La innovación central de nuestro marco, el algoritmo de Optimización de Política de Modo Adaptativo (AMPO, por sus siglas en inglés), introduce tres avances clave sobre los métodos existentes: (1) Diseño de modos de pensamiento multigranular, (2) Cambio de modo consciente del contexto durante la interacción social, y (3) Razonamiento eficiente en tokens mediante procesamiento adaptativo en profundidad. Experimentos exhaustivos en tareas de inteligencia social confirman que AML logra un 15.6% más de rendimiento en las tareas que los métodos más avanzados. Notablemente, nuestro método supera a GRPO en un 7.0% con cadenas de razonamiento un 32.8% más cortas. Estos resultados demuestran que la selección de modos de pensamiento sensible al contexto, implementada en AMPO, permite un razonamiento adaptativo más similar al humano que el enfoque de profundidad fija de GRPO.
English
Effective social intelligence simulation requires language agents to
dynamically adjust reasoning depth, a capability notably absent in current
approaches. While existing methods either lack this kind of reasoning
capability or enforce uniform long chain-of-thought reasoning across all
scenarios, resulting in excessive token usage and inappropriate social
simulation. In this paper, we propose Adaptive Mode
Learning (AML) that strategically selects from four
thinking modes (intuitive reaction rightarrow deep contemplation) based on
real-time context. Our framework's core innovation, the Adaptive
Mode Policy Optimization (AMPO)
algorithm, introduces three key advancements over existing methods: (1)
Multi-granular thinking mode design, (2) Context-aware mode switching across
social interaction, and (3) Token-efficient reasoning via depth-adaptive
processing. Extensive experiments on social intelligence tasks confirm that AML
achieves 15.6% higher task performance than state-of-the-art methods. Notably,
our method outperforms GRPO by 7.0% with 32.8% shorter reasoning chains. These
results demonstrate that context-sensitive thinking mode selection, as
implemented in AMPO, enables more human-like adaptive reasoning than GRPO's
fixed-depth approachSummary
AI-Generated Summary