Думай на ходу: адаптивное мышление через обучение с подкреплением для социальных агентов
Think on your Feet: Adaptive Thinking via Reinforcement Learning for Social Agents
May 4, 2025
Авторы: Minzheng Wang, Yongbin Li, Haobo Wang, Xinghua Zhang, Nan Xu, Bingli Wu, Fei Huang, Haiyang Yu, Wenji Mao
cs.AI
Аннотация
Эффективное моделирование социального интеллекта требует от языковых агентов способности динамически адаптировать глубину рассуждений, что заметно отсутствует в современных подходах. Существующие методы либо не обладают такой способностью к рассуждениям, либо применяют единообразные длинные цепочки рассуждений для всех сценариев, что приводит к избыточному использованию токенов и некорректному моделированию социального поведения. В данной статье мы предлагаем Adaptive Mode Learning (AML), который стратегически выбирает один из четырех режимов мышления (от интуитивной реакции до глубокого анализа) на основе контекста в реальном времени. Ключевым нововведением нашей структуры является алгоритм Adaptive Mode Policy Optimization (AMPO), который вносит три важных улучшения по сравнению с существующими методами: (1) Многоуровневое проектирование режимов мышления, (2) Контекстно-зависимое переключение режимов в ходе социального взаимодействия и (3) Эффективное использование токенов за счет адаптивной обработки глубины. Многочисленные эксперименты на задачах социального интеллекта подтверждают, что AML достигает на 15,6% более высокой производительности, чем современные методы. В частности, наш метод превосходит GRPO на 7,0% при сокращении цепочек рассуждений на 32,8%. Эти результаты демонстрируют, что контекстно-зависимый выбор режимов мышления, реализованный в AMPO, обеспечивает более человекообразное адаптивное рассуждение по сравнению с подходом GRPO с фиксированной глубиной.
English
Effective social intelligence simulation requires language agents to
dynamically adjust reasoning depth, a capability notably absent in current
approaches. While existing methods either lack this kind of reasoning
capability or enforce uniform long chain-of-thought reasoning across all
scenarios, resulting in excessive token usage and inappropriate social
simulation. In this paper, we propose Adaptive Mode
Learning (AML) that strategically selects from four
thinking modes (intuitive reaction rightarrow deep contemplation) based on
real-time context. Our framework's core innovation, the Adaptive
Mode Policy Optimization (AMPO)
algorithm, introduces three key advancements over existing methods: (1)
Multi-granular thinking mode design, (2) Context-aware mode switching across
social interaction, and (3) Token-efficient reasoning via depth-adaptive
processing. Extensive experiments on social intelligence tasks confirm that AML
achieves 15.6% higher task performance than state-of-the-art methods. Notably,
our method outperforms GRPO by 7.0% with 32.8% shorter reasoning chains. These
results demonstrate that context-sensitive thinking mode selection, as
implemented in AMPO, enables more human-like adaptive reasoning than GRPO's
fixed-depth approachSummary
AI-Generated Summary