문맥적 협력자 추론을 통한 다중 에이전트 협력
Multi-agent cooperation through in-context co-player inference
February 18, 2026
저자: Marissa A. Weis, Maciej Wołczyk, Rajai Nasser, Rif A. Saurous, Blaise Agüera y Arcas, João Sacramento, Alexander Meulemans
cs.AI
초록
이기적인 에이전트 간 협력 달성은 다중 에이전트 강화 학습의 근본적인 과제로 남아 있다. 최근 연구는 상대 에이전트의 학습 역학을 고려하고 형성하는 "학습 인식" 에이전트 간 상호 협력이 유도될 수 있음을 보여주었다. 그러나 기존 접근법들은 일반적으로 상대방의 학습 규칙에 대한 경직된(종종 일관성 없는) 가정에 의존하거나, 빠른 시간 척도에서 업데이트하는 "단순 학습자"와 이러한 업데이트를 관찰하는 "메타 학습자" 간의 엄격한 분리를 전제로 한다. 본 연구에서는 시퀀스 모델의 컨텍스트 내 학습 능력이 경직된 가정이나 명시적 시간 척도 분리 없이도 상대방 학습 인식을 가능하게 함을 입증한다. 다양한 분포의 상대 에이전트에 대해 시퀀스 모델 에이전트를 훈련시키면 빠른 에피소드 내 시간 척도에서 학습 알고리즘으로 효과적으로 기능하는 컨텍스트 내 최적 반응 전략이 자연스럽게 유도됨을 보여준다. 선행 연구에서 확인된 협력 메커니즘—갈취에 대한 취약성이 상호 형성을 촉진하는—이 본 환경에서 자연스럽게 나타남을 발견했다: 컨텍스트 내 적응은 에이전트를 갈취에 취약하게 만들며, 이로 인한 상대방의 컨텍스트 내 학습 역학을 형성하려는 상호적 압력이 협력적 행동 학습으로 해소된다. 우리의 결과는 시퀀스 모델에 대한 표준 분산 강화 학습과 상대방 다양성의 결합이 협력적 행동 학습을 위한 확장 가능한 경로를 제공함을 시사한다.
English
Achieving cooperation among self-interested agents remains a fundamental challenge in multi-agent reinforcement learning. Recent work showed that mutual cooperation can be induced between "learning-aware" agents that account for and shape the learning dynamics of their co-players. However, existing approaches typically rely on hardcoded, often inconsistent, assumptions about co-player learning rules or enforce a strict separation between "naive learners" updating on fast timescales and "meta-learners" observing these updates. Here, we demonstrate that the in-context learning capabilities of sequence models allow for co-player learning awareness without requiring hardcoded assumptions or explicit timescale separation. We show that training sequence model agents against a diverse distribution of co-players naturally induces in-context best-response strategies, effectively functioning as learning algorithms on the fast intra-episode timescale. We find that the cooperative mechanism identified in prior work-where vulnerability to extortion drives mutual shaping-emerges naturally in this setting: in-context adaptation renders agents vulnerable to extortion, and the resulting mutual pressure to shape the opponent's in-context learning dynamics resolves into the learning of cooperative behavior. Our results suggest that standard decentralized reinforcement learning on sequence models combined with co-player diversity provides a scalable path to learning cooperative behaviors.