Minimisation du regret avec des adversaires adaptatifs dans les jeux répétés

Résumé

Dans cet article, nous étudions la minimisation du regret dans des jeux répétés avec des adversaires adaptatifs capables de répondre en fonction de l'historique des interactions. Il est connu que la mesure standard du regret externe en apprentissage en ligne échoue à capturer cette adaptativité. Pour prendre en compte le raisonnement contrefactuel des joueurs, nous introduisons le {\tt Regret de Politique Répétée (RP-Regret)}, une mesure issue de la théorie des jeux qui évalue la différence entre l'utilité accumulée réalisée et la meilleure utilité a posteriori, lorsque tous les joueurs peuvent répondre à l'historique des interactions. Comparée aux notions de regret existantes dans ce cadre, la nôtre est propre aux jeux répétés, permettant des comparateurs plus forts et des adversaires soumis à moins de contraintes, tout en conservant la possibilité de trouver de meilleurs équilibres lorsque tous les joueurs la minimisent. Nous identifions d'abord des conditions nécessaires pour obtenir un {\tt RP-Regret} sous-linéaire dans le temps, portant sur la variation des stratégies de comparateur du joueur dans la définition du regret ainsi que sur les mémoires du comparateur et des stratégies adverses. Nous étudions ensuite des conditions supplémentaires et des algorithmes prouvables pour minimiser le {\tt RP-Regret}, qui est par définition non convexe dans l'espace des stratégies. Pour relever ce défi, nous proposons trois algorithmes : (i) un algorithme basé sur un oracle d'optimisation, comme supposé dans certains travaux antérieurs en apprentissage non convexe en ligne ; (ii) un algorithme qui minimise à chaque itération un surrogate convexe et linéarisé du {\tt RP-Regret} ; (iii) un algorithme qui minimise directement le {\tt RP-Regret} lorsque les adversaires changent lentement de stratégie. De plus, lorsque tous les joueurs peuvent exécuter des algorithmes pour minimiser le {\tt RP-Regret} (ou sa variante linéarisée), certains équilibres parfaits en sous-jeux du jeu répété peuvent être appris. Nous présentons également des expériences montrant que la minimisation de nos notions de regret peut conduire à des solutions plus coopératives offrant une utilité plus élevée dans des jeux tels que la Chasse au cerf.

English

In this paper, we study regret minimization in repeated games with adaptive opponents who can respond based on histories of play. The standard metric of external regret in online learning is known to fail to capture such adaptivity. To account for players' counterfactual reasoning, we introduce {\tt Repeated Policy Regret (RP-Regret)}, a game-theoretic metric that measures the difference between the realized and the best-in-hindsight accumulated utility when all players can respond to the history of play. Compared to existing regret notions in this setting, ours is native to repeated game playing, enabling stronger comparators and opponents with fewer constraints, while maintaining the possibility of finding better equilibria when all players minimize it. We first identify necessary conditions for obtaining {\tt RP-Regret} sublinear in time, on the variation of the player's comparator strategies in the regret definition and on the memories of both the comparator and opponents' strategies. We then study additional conditions and provable algorithms to minimize {\tt RP-Regret}, which is by definition non-convex in the strategy space. To address this challenge, we propose three algorithms: (i) one based on an optimization oracle, as assumed in some prior work in online non-convex learning; (ii) one that minimizes a convex and linearized surrogate of {\tt RP-Regret} at each iteration; (iii) one that directly minimizes {\tt RP-Regret} when opponents change strategies slowly. Furthermore, when all players can run algorithms to minimize the {\tt RP-Regret} (or its linearized variant), certain subgame perfect equilibria of the repeated game can be learned. We also provide experiments showing that minimizing our regret notions can lead to more cooperative solutions with higher utility in games such as Stag-Hunt.