Multi-agent samenwerking door in-context medespeler-inferentie

Samenvatting

Het bereiken van samenwerking tussen zelfbelang-gedreven agents blijft een fundamentele uitdaging in multi-agent reinforcement learning. Recent onderzoek toonde aan dat wederzijdse samenwerking kan worden geïnduceerd tussen "leerbewuste" agents die rekening houden met en de leer dynamiek van hun medespelers beïnvloeden. Bestaande benaderingen steunen echter typisch op hardgecodeerde, vaak inconsistente, aannames over de leerregels van medespelers of leggen een strikte scheiding op tussen "naïeve leerders" die op snelle tijdschalen updaten en "meta-leerders" die deze updates observeren. Hier tonen we aan dat de in-context leercapaciteiten van sequentiemodellen leerbewustzijn ten opzichte van medespelers mogelijk maken zonder hardgecodeerde aannames of expliciete tijdschaalscheiding. We laten zien dat het trainen van sequentiemodel-agenten tegen een diverse verdeling van medespelers van nature in-context best-response strategieën induceert, die effectief functioneren als leeralgoritmen op de snelle intra-episode tijdschaal. We ontdekken dat het coöperatieve mechanisme dat in eerder werk werd geïdentificeerd – waarbij kwetsbaarheid voor afpersing wederzijdse beïnvloeding aandrijft – van nature opkomt in deze setting: in-context aanpassing maakt agents kwetsbaar voor afpersing, en de resulterende wederzijdse druk om de in-context leer dynamiek van de tegenstander te beïnvloeden lost op in het aanleren van coöperatief gedrag. Onze resultaten suggereren dat standaard gedecentraliseerd reinforcement learning op sequentiemodellen, gecombineerd met diversiteit onder medespelers, een schaalbare weg biedt naar het aanleren van coöperatieve gedragingen.

English

Achieving cooperation among self-interested agents remains a fundamental challenge in multi-agent reinforcement learning. Recent work showed that mutual cooperation can be induced between "learning-aware" agents that account for and shape the learning dynamics of their co-players. However, existing approaches typically rely on hardcoded, often inconsistent, assumptions about co-player learning rules or enforce a strict separation between "naive learners" updating on fast timescales and "meta-learners" observing these updates. Here, we demonstrate that the in-context learning capabilities of sequence models allow for co-player learning awareness without requiring hardcoded assumptions or explicit timescale separation. We show that training sequence model agents against a diverse distribution of co-players naturally induces in-context best-response strategies, effectively functioning as learning algorithms on the fast intra-episode timescale. We find that the cooperative mechanism identified in prior work-where vulnerability to extortion drives mutual shaping-emerges naturally in this setting: in-context adaptation renders agents vulnerable to extortion, and the resulting mutual pressure to shape the opponent's in-context learning dynamics resolves into the learning of cooperative behavior. Our results suggest that standard decentralized reinforcement learning on sequence models combined with co-player diversity provides a scalable path to learning cooperative behaviors.

Multi-agent samenwerking door in-context medespeler-inferentie

Multi-agent cooperation through in-context co-player inference

Samenvatting

Support