Coopération multi-agent par inférence contextuelle du co-joueur

Résumé

La réalisation d'une coopération entre des agents égoïstes demeure un défi fondamental en apprentissage par renforcement multi-agent. Des travaux récents ont montré qu'une coopération mutuelle peut être induite entre des agents « conscients de l'apprentissage » qui prennent en compte et façonnent la dynamique d'apprentissage de leurs co-joueurs. Cependant, les approches existantes reposent généralement sur des hypothèses prédéfinies, souvent inconsistantes, concernant les règles d'apprentissage des co-joueurs, ou imposent une séparation stricte entre les « apprenants naïfs » qui se mettent à jour sur des échelles de temps rapides et les « méta-apprenants » qui observent ces mises à jour. Nous démontrons ici que les capacités d'apprentissage en contexte des modèles séquentiels permettent une prise de conscience de l'apprentissage du co-joueur sans nécessiter d'hypothèses prédéfinies ou de séparation explicite des échelles de temps. Nous montrons qu'entraîner des modèles séquentiels contre une distribution diverse de co-joueurs induit naturellement des stratégies de meilleure réponse en contexte, fonctionnant efficacement comme des algorithmes d'apprentissage sur l'échelle de temps rapide intra-épisode. Nous constatons que le mécanisme coopératif identifié dans les travaux antérieurs – où la vulnérabilité à l'extorsion conduit à un façonnage mutuel – émerge naturellement dans ce cadre : l'adaptation en contexte rend les agents vulnérables à l'extorsion, et la pression mutuelle qui en résulte pour façonner la dynamique d'apprentissage en contexte du adversaire se résout en l'apprentissage d'un comportement coopératif. Nos résultats suggèrent que l'apprentissage par renforcement décentralisé standard sur des modèles séquentiels, combiné à une diversité de co-joueurs, offre une voie évolutive pour l'apprentissage de comportements coopératifs.

English

Achieving cooperation among self-interested agents remains a fundamental challenge in multi-agent reinforcement learning. Recent work showed that mutual cooperation can be induced between "learning-aware" agents that account for and shape the learning dynamics of their co-players. However, existing approaches typically rely on hardcoded, often inconsistent, assumptions about co-player learning rules or enforce a strict separation between "naive learners" updating on fast timescales and "meta-learners" observing these updates. Here, we demonstrate that the in-context learning capabilities of sequence models allow for co-player learning awareness without requiring hardcoded assumptions or explicit timescale separation. We show that training sequence model agents against a diverse distribution of co-players naturally induces in-context best-response strategies, effectively functioning as learning algorithms on the fast intra-episode timescale. We find that the cooperative mechanism identified in prior work-where vulnerability to extortion drives mutual shaping-emerges naturally in this setting: in-context adaptation renders agents vulnerable to extortion, and the resulting mutual pressure to shape the opponent's in-context learning dynamics resolves into the learning of cooperative behavior. Our results suggest that standard decentralized reinforcement learning on sequence models combined with co-player diversity provides a scalable path to learning cooperative behaviors.

Coopération multi-agent par inférence contextuelle du co-joueur

Multi-agent cooperation through in-context co-player inference

Résumé

Support