Multi-Agent-Kooperation durch In-Context-Mitspieler-Inferenz
Multi-agent cooperation through in-context co-player inference
February 18, 2026
Autoren: Marissa A. Weis, Maciej Wołczyk, Rajai Nasser, Rif A. Saurous, Blaise Agüera y Arcas, João Sacramento, Alexander Meulemans
cs.AI
Zusammenfassung
Die Erzielung von Kooperation zwischen eigennützigen Agenten bleibt eine grundlegende Herausforderung im Bereich des Multi-Agenten-Reinforcement-Learnings. Jüngste Arbeiten haben gezeigt, dass gegenseitige Kooperation zwischen "lernbewussten" Agenten induziert werden kann, welche die Lernprozesse ihrer Mitspieler berücksichtigen und aktiv formen. Bisherige Ansätze basieren jedoch typischerweise auf fest kodierten, oft inkonsistenten Annahmen über die Lernregeln der Mitspieler oder erzwingen eine strikte Trennung zwischen "naiven Lernenden", die auf schnellen Zeitskalen aktualisieren, und "Meta-Lernenden", die diese Aktualisierungen beobachten. Hier zeigen wir, dass die In-Context-Lernfähigkeiten von Sequenzmodellen eine Lernbewusstheit gegenüber Mitspielern ermöglichen, ohne fest kodierte Annahmen oder explizite Zeitskalen-Trennung zu erfordern. Wir demonstrieren, dass das Training von Sequenzmodell-Agenten gegen eine vielfältige Verteilung von Mitspielern natürlicherweise In-Context-Best-Response-Strategien induziert, die effektiv als Lernalgorithmen auf der schnellen, episodeninternen Zeitskala fungieren. Wir stellen fest, dass der in früheren Arbeiten identifizierte Kooperationsmechanismus – bei dem Anfälligkeit für Erpressung gegenseitige Formung antreibt – in diesem Setting natürlich entsteht: In-Context-Anpassung macht Agenten anfällig für Erpressung, und der daraus resultierende gegenseitige Druck, die In-Context-Lerndynamik des Gegners zu formen, mündet im Erlernen kooperativen Verhaltens. Unsere Ergebnisse legen nahe, dass standardmäßiges dezentrales Reinforcement-Learning auf Sequenzmodellen in Kombination mit Mitspieler-Diversität einen skalierbaren Weg zum Erlernen kooperativen Verhaltens bietet.
English
Achieving cooperation among self-interested agents remains a fundamental challenge in multi-agent reinforcement learning. Recent work showed that mutual cooperation can be induced between "learning-aware" agents that account for and shape the learning dynamics of their co-players. However, existing approaches typically rely on hardcoded, often inconsistent, assumptions about co-player learning rules or enforce a strict separation between "naive learners" updating on fast timescales and "meta-learners" observing these updates. Here, we demonstrate that the in-context learning capabilities of sequence models allow for co-player learning awareness without requiring hardcoded assumptions or explicit timescale separation. We show that training sequence model agents against a diverse distribution of co-players naturally induces in-context best-response strategies, effectively functioning as learning algorithms on the fast intra-episode timescale. We find that the cooperative mechanism identified in prior work-where vulnerability to extortion drives mutual shaping-emerges naturally in this setting: in-context adaptation renders agents vulnerable to extortion, and the resulting mutual pressure to shape the opponent's in-context learning dynamics resolves into the learning of cooperative behavior. Our results suggest that standard decentralized reinforcement learning on sequence models combined with co-player diversity provides a scalable path to learning cooperative behaviors.