文脈内での共プレイヤー推論によるマルチエージェント協調
Multi-agent cooperation through in-context co-player inference
February 18, 2026
著者: Marissa A. Weis, Maciej Wołczyk, Rajai Nasser, Rif A. Saurous, Blaise Agüera y Arcas, João Sacramento, Alexander Meulemans
cs.AI
要旨
自己利益を追求するエージェント間での協調の実現は、マルチエージェント強化学習における根本的な課題であり続けている。近年の研究では、相互の学習ダイナミクスを考慮し形成する「学習認識型」エージェント間において、相互協調が誘発され得ることが示された。しかし、既存のアプローチでは一般に、共同プレイヤーの学習規則に関する固定的でしばしば矛盾した仮定に依存するか、高速な時間スケールで更新する「素朴な学習者」とこれらの更新を観測する「メタ学習者」との厳格な分離を強要している。本研究では、シーケンスモデルが持つ文脈内学習能力により、固定化された仮定や明示的な時間スケール分離を必要とせずに共同プレイヤーの学習認識が可能となることを実証する。多様な共同プレイヤーの分布に対してシーケンスモデルエージェントを訓練すると、高速なエピソード内時間スケールにおいて学習アルゴリズムとして機能する、文脈内最適応答戦略が自然に誘導されることを示す。既存研究で特定された協調メカニズム—搾取への脆弱性が相互形成を駆動する—が、この設定で自然に出現することを発見した:文脈内適応はエージェントを搾取に脆弱にし、その結果生じる相手の文脈内学習ダイナミクスを形成する相互圧力が、協調的行動の学習へと解決される。我々の結果は、シーケンスモデルに対する標準的な分散型強化学習と共同プレイヤーの多様性の組み合わせが、協調的行動を学習するスケーラブルな経路を提供することを示唆している。
English
Achieving cooperation among self-interested agents remains a fundamental challenge in multi-agent reinforcement learning. Recent work showed that mutual cooperation can be induced between "learning-aware" agents that account for and shape the learning dynamics of their co-players. However, existing approaches typically rely on hardcoded, often inconsistent, assumptions about co-player learning rules or enforce a strict separation between "naive learners" updating on fast timescales and "meta-learners" observing these updates. Here, we demonstrate that the in-context learning capabilities of sequence models allow for co-player learning awareness without requiring hardcoded assumptions or explicit timescale separation. We show that training sequence model agents against a diverse distribution of co-players naturally induces in-context best-response strategies, effectively functioning as learning algorithms on the fast intra-episode timescale. We find that the cooperative mechanism identified in prior work-where vulnerability to extortion drives mutual shaping-emerges naturally in this setting: in-context adaptation renders agents vulnerable to extortion, and the resulting mutual pressure to shape the opponent's in-context learning dynamics resolves into the learning of cooperative behavior. Our results suggest that standard decentralized reinforcement learning on sequence models combined with co-player diversity provides a scalable path to learning cooperative behaviors.