Cooperazione multi-agente tramite inferenza contestuale del co-giocatore

Abstract

Il raggiungimento della cooperazione tra agenti autointeressati rimane una sfida fondamentale nell'apprendimento per rinforzo multi-agente. Ricerche recenti hanno dimostrato che una cooperazione reciproca può essere indotta tra agenti "consapevoli dell'apprendimento" che tengono conto e modellano le dinamiche di apprendimento dei loro co-partecipanti. Tuttavia, gli approcci esistenti si basano tipicamente su assunzioni predefinite, spesso inconsistenti, riguardanti le regole di apprendimento dei co-partecipanti, oppure impongono una rigida separazione tra "apprendisti ingenui" che si aggiornano su scale temporali veloci e "meta-apprendisti" che osservano questi aggiornamenti. Qui dimostriamo che le capacità di apprendimento contestuale dei modelli sequenziali permettono la consapevolezza dell'apprendimento del co-partecipante senza richiedere assunzioni predefinite o una separazione esplicita delle scale temporali. Mostriamo che l'addestramento di agenti basati su modelli sequenziali contro una distribuzione diversificata di co-partecipanti induce naturalmente strategie di miglior risposta contestuale, funzionando efficacemente come algoritmi di apprendimento sulla scala temporale veloce intra-episodio. Rileviamo che il meccanismo cooperativo identificato in lavori precedenti - in cui la vulnerabilità all'estorsione guida una modellazione reciproca - emerge naturalmente in questo contesto: l'adattamento contestuale rende gli agenti vulnerabili all'estorsione, e la conseguente pressione reciproca a modellare le dinamiche di apprendimento contestuale dell'avversario si risolve nell'apprendimento di comportamenti cooperativi. I nostri risultati suggeriscono che l'apprendimento per rinforzo decentralizzato standard sui modelli sequenziali, combinato con la diversità dei co-partecipanti, fornisce un percorso scalabile per l'apprendimento di comportamenti cooperativi.

English

Achieving cooperation among self-interested agents remains a fundamental challenge in multi-agent reinforcement learning. Recent work showed that mutual cooperation can be induced between "learning-aware" agents that account for and shape the learning dynamics of their co-players. However, existing approaches typically rely on hardcoded, often inconsistent, assumptions about co-player learning rules or enforce a strict separation between "naive learners" updating on fast timescales and "meta-learners" observing these updates. Here, we demonstrate that the in-context learning capabilities of sequence models allow for co-player learning awareness without requiring hardcoded assumptions or explicit timescale separation. We show that training sequence model agents against a diverse distribution of co-players naturally induces in-context best-response strategies, effectively functioning as learning algorithms on the fast intra-episode timescale. We find that the cooperative mechanism identified in prior work-where vulnerability to extortion drives mutual shaping-emerges naturally in this setting: in-context adaptation renders agents vulnerable to extortion, and the resulting mutual pressure to shape the opponent's in-context learning dynamics resolves into the learning of cooperative behavior. Our results suggest that standard decentralized reinforcement learning on sequence models combined with co-player diversity provides a scalable path to learning cooperative behaviors.

Cooperazione multi-agente tramite inferenza contestuale del co-giocatore

Multi-agent cooperation through in-context co-player inference

Abstract

Support