ChatPaper.aiChatPaper

발빠르게 사고하기: 사회적 에이전트를 위한 강화 학습 기반 적응적 사고

Think on your Feet: Adaptive Thinking via Reinforcement Learning for Social Agents

May 4, 2025
저자: Minzheng Wang, Yongbin Li, Haobo Wang, Xinghua Zhang, Nan Xu, Bingli Wu, Fei Huang, Haiyang Yu, Wenji Mao
cs.AI

초록

효과적인 사회적 지능 시뮬레이션을 위해서는 언어 에이전트가 추론 깊이를 동적으로 조절할 수 있는 능력이 필요하지만, 이는 현재의 접근 방식에서 두드러지게 부족한 부분입니다. 기존 방법들은 이러한 추론 능력이 없거나 모든 시나리오에 걸쳐 균일하게 긴 사고 연쇄(chain-of-thought) 추론을 강제함으로써 과도한 토큰 사용과 부적절한 사회적 시뮬레이션을 초래합니다. 본 논문에서는 실시간 컨텍스트에 기반하여 네 가지 사고 모드(직관적 반응 → 깊은 사색) 중에서 전략적으로 선택하는 적응형 모드 학습(Adaptive Mode Learning, AML)을 제안합니다. 우리 프레임워크의 핵심 혁신인 적응형 모드 정책 최적화(Adaptive Mode Policy Optimization, AMPO) 알고리즘은 기존 방법 대비 세 가지 주요 개선점을 도입했습니다: (1) 다중 세분화 사고 모드 설계, (2) 사회적 상호작용 전반에 걸친 컨텍스트 인식 모드 전환, (3) 깊이 적응형 처리를 통한 토큰 효율적 추론. 사회적 지능 과제에 대한 광범위한 실험을 통해 AML이 최신 방법 대비 15.6% 더 높은 과제 성능을 달성함을 확인했습니다. 특히, 우리의 방법은 GRPO 대비 7.0% 더 우수한 성능을 보였으며, 추론 연쇄 길이는 32.8% 더 짧았습니다. 이러한 결과는 AMPO에서 구현된 컨텍스트 민감적 사고 모드 선택이 GRPO의 고정 깊이 접근 방식보다 더 인간다운 적응적 추론을 가능하게 함을 보여줍니다.
English
Effective social intelligence simulation requires language agents to dynamically adjust reasoning depth, a capability notably absent in current approaches. While existing methods either lack this kind of reasoning capability or enforce uniform long chain-of-thought reasoning across all scenarios, resulting in excessive token usage and inappropriate social simulation. In this paper, we propose Adaptive Mode Learning (AML) that strategically selects from four thinking modes (intuitive reaction rightarrow deep contemplation) based on real-time context. Our framework's core innovation, the Adaptive Mode Policy Optimization (AMPO) algorithm, introduces three key advancements over existing methods: (1) Multi-granular thinking mode design, (2) Context-aware mode switching across social interaction, and (3) Token-efficient reasoning via depth-adaptive processing. Extensive experiments on social intelligence tasks confirm that AML achieves 15.6% higher task performance than state-of-the-art methods. Notably, our method outperforms GRPO by 7.0% with 32.8% shorter reasoning chains. These results demonstrate that context-sensitive thinking mode selection, as implemented in AMPO, enables more human-like adaptive reasoning than GRPO's fixed-depth approach

Summary

AI-Generated Summary

PDF121May 6, 2025