マルチエージェント強化学習を用いた社会的推論のための言語モデルのトレーニング
Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning
February 9, 2025
著者: Bidipta Sarkar, Warren Xia, C. Karen Liu, Dorsa Sadigh
cs.AI
要旨
自然言語でのコミュニケーションは、マルチエージェント環境において強力なツールであり、部分的に観測可能な状況で独立したエージェントが情報を共有し、人間とのゼロショット調整を可能にします。しかし、従来の多くの研究は、大量の人間のデモンストレーションを用いたトレーニングに依存するか、自然で有用なコミュニケーション戦略を生成する能力を欠いているため、限界があります。本研究では、言語モデルを訓練して、人間のデモンストレーションなしに環境について自然言語で生産的な議論を行うようにします。コミュニケーション問題を聴くことと話すことに分解します。我々の主要なアイデアは、エージェントの目標を活用して、コミュニケーションを導く密な報酬信号として世界に関する有用な情報を予測することです。具体的には、モデルの聴くスキルを向上させるために、議論に基づいて環境に関する情報を予測するようにトレーニングし、同時に、モデルの話すスキルをマルチエージェント強化学習によって向上させ、メッセージが他のエージェントに与える影響に基づいて報酬を与えます。複雑な社会環境におけるコミュニケーションの役割と必要性を調査するために、Among Usに基づいた具体的な社会的推理ゲームを研究し、敵対的なインポスターの正体を特定することが鍵となる重要な質問を検討します。我々の手法による緊急行動、容疑者の非難や証拠提供などの分析を行い、標準RLと比較して勝率が倍増する強力な議論を可能にすることを発見します。コードとモデルは以下のURLから公開しています:https://socialdeductionllm.github.io/
English
Communicating in natural language is a powerful tool in multi-agent settings,
as it enables independent agents to share information in partially observable
settings and allows zero-shot coordination with humans. However, most prior
works are limited as they either rely on training with large amounts of human
demonstrations or lack the ability to generate natural and useful communication
strategies. In this work, we train language models to have productive
discussions about their environment in natural language without any human
demonstrations. We decompose the communication problem into listening and
speaking. Our key idea is to leverage the agent's goal to predict useful
information about the world as a dense reward signal that guides communication.
Specifically, we improve a model's listening skills by training them to predict
information about the environment based on discussions, and we simultaneously
improve a model's speaking skills with multi-agent reinforcement learning by
rewarding messages based on their influence on other agents. To investigate the
role and necessity of communication in complex social settings, we study an
embodied social deduction game based on Among Us, where the key question to
answer is the identity of an adversarial imposter. We analyze emergent
behaviors due to our technique, such as accusing suspects and providing
evidence, and find that it enables strong discussions, doubling the win rates
compared to standard RL. We release our code and models at
https://socialdeductionllm.github.io/Summary
AI-Generated Summary