足元で考える:社会的エージェントのための強化学習による適応的思考
Think on your Feet: Adaptive Thinking via Reinforcement Learning for Social Agents
May 4, 2025
著者: Minzheng Wang, Yongbin Li, Haobo Wang, Xinghua Zhang, Nan Xu, Bingli Wu, Fei Huang, Haiyang Yu, Wenji Mao
cs.AI
要旨
効果的な社会知能シミュレーションには、言語エージェントが推論の深さを動的に調整する能力が必要であり、これは現在の手法では顕著に欠けている。既存の手法は、この種の推論能力を欠いているか、すべてのシナリオにわたって均一な長い連鎖思考(chain-of-thought)推論を強制しており、その結果、過剰なトークン使用と不適切な社会シミュレーションが生じている。本論文では、リアルタイムの文脈に基づいて4つの思考モード(直感的反応 → 深い考察)から戦略的に選択するAdaptive Mode Learning(AML)を提案する。我々のフレームワークの中核となる革新であるAdaptive Mode Policy Optimization(AMPO)アルゴリズムは、既存の手法に対して3つの重要な進歩を導入する:(1)マルチグラニュラリティな思考モード設計、(2)社会的相互作用における文脈を考慮したモード切り替え、(3)深さ適応型処理によるトークン効率の良い推論。社会知能タスクにおける広範な実験により、AMLが最先端の手法よりも15.6%高いタスク性能を達成することが確認された。特に、我々の手法はGRPOを7.0%上回り、32.8%短い推論連鎖を実現した。これらの結果は、AMPOで実装された文脈に敏感な思考モード選択が、GRPOの固定深度アプローチよりも人間らしい適応的推論を可能にすることを示している。
English
Effective social intelligence simulation requires language agents to
dynamically adjust reasoning depth, a capability notably absent in current
approaches. While existing methods either lack this kind of reasoning
capability or enforce uniform long chain-of-thought reasoning across all
scenarios, resulting in excessive token usage and inappropriate social
simulation. In this paper, we propose Adaptive Mode
Learning (AML) that strategically selects from four
thinking modes (intuitive reaction rightarrow deep contemplation) based on
real-time context. Our framework's core innovation, the Adaptive
Mode Policy Optimization (AMPO)
algorithm, introduces three key advancements over existing methods: (1)
Multi-granular thinking mode design, (2) Context-aware mode switching across
social interaction, and (3) Token-efficient reasoning via depth-adaptive
processing. Extensive experiments on social intelligence tasks confirm that AML
achieves 15.6% higher task performance than state-of-the-art methods. Notably,
our method outperforms GRPO by 7.0% with 32.8% shorter reasoning chains. These
results demonstrate that context-sensitive thinking mode selection, as
implemented in AMPO, enables more human-like adaptive reasoning than GRPO's
fixed-depth approachSummary
AI-Generated Summary