Bedauernsminimierung mit adaptiven Gegnern in wiederholten Spielen

Zusammenfassung

In diesem Artikel untersuchen wir die Minimierung von Bedauern in wiederholten Spielen mit adaptiven Gegnern, die basierend auf der Geschichte des Spielverlaufs reagieren können. Es ist bekannt, dass das Standardmaß des externen Bedauerns im Online-Lernen solche Adaptivität nicht erfassen kann. Um das kontrafaktische Denken der Spieler zu berücksichtigen, führen wir {\tt Repeated Policy Regret (RP-Regret)} ein, ein spieltheoretisches Maß, das die Differenz zwischen dem realisierten und dem im Nachhinein besten akkumulierten Nutzen misst, wenn alle Spieler auf die Geschichte des Spielverlaufs reagieren können. Im Vergleich zu bestehenden Bedauernsbegriffen in diesem Kontext ist unser Maß nativer für wiederholte Spiele, was stärkere Vergleicher und Gegner mit weniger Einschränkungen ermöglicht, während die Möglichkeit, bessere Gleichgewichte zu finden, erhalten bleibt, wenn alle Spieler es minimieren. Zunächst identifizieren wir notwendige Bedingungen für das Erreichen von sublinearem {\tt RP-Regret} in der Zeit, sowohl hinsichtlich der Variation der Vergleichsstrategien des Spielers in der Bedauernsdefinition als auch hinsichtlich der Gedächtnisse sowohl des Vergleichers als auch der gegnerischen Strategien. Anschließend untersuchen wir zusätzliche Bedingungen und beweisbare Algorithmen zur Minimierung von {\tt RP-Regret}, das per Definition nicht-konvex im Strategieraum ist. Um dieser Herausforderung zu begegnen, schlagen wir drei Algorithmen vor: (i) einen, der auf einem Optimierungsorakel basiert, wie es in einigen früheren Arbeiten zum nicht-konvexen Online-Lernen angenommen wurde; (ii) einen, der in jeder Iteration einen konvexen und linearisierten Ersatzwert für {\tt RP-Regret} minimiert; (iii) einen, der {\tt RP-Regret} direkt minimiert, wenn Gegner ihre Strategien langsam ändern. Darüber hinaus können, wenn alle Spieler Algorithmen zur Minimierung des {\tt RP-Regret} (oder seiner linearisierten Variante) ausführen, bestimmte teilspielperfekte Gleichgewichte des wiederholten Spiels erlernt werden. Wir liefern auch Experimente, die zeigen, dass die Minimierung unserer Bedauernsbegriffe zu kooperativeren Lösungen mit höherem Nutzen in Spielen wie der Hirschjagd führen kann.

English

In this paper, we study regret minimization in repeated games with adaptive opponents who can respond based on histories of play. The standard metric of external regret in online learning is known to fail to capture such adaptivity. To account for players' counterfactual reasoning, we introduce {\tt Repeated Policy Regret (RP-Regret)}, a game-theoretic metric that measures the difference between the realized and the best-in-hindsight accumulated utility when all players can respond to the history of play. Compared to existing regret notions in this setting, ours is native to repeated game playing, enabling stronger comparators and opponents with fewer constraints, while maintaining the possibility of finding better equilibria when all players minimize it. We first identify necessary conditions for obtaining {\tt RP-Regret} sublinear in time, on the variation of the player's comparator strategies in the regret definition and on the memories of both the comparator and opponents' strategies. We then study additional conditions and provable algorithms to minimize {\tt RP-Regret}, which is by definition non-convex in the strategy space. To address this challenge, we propose three algorithms: (i) one based on an optimization oracle, as assumed in some prior work in online non-convex learning; (ii) one that minimizes a convex and linearized surrogate of {\tt RP-Regret} at each iteration; (iii) one that directly minimizes {\tt RP-Regret} when opponents change strategies slowly. Furthermore, when all players can run algorithms to minimize the {\tt RP-Regret} (or its linearized variant), certain subgame perfect equilibria of the repeated game can be learned. We also provide experiments showing that minimizing our regret notions can lead to more cooperative solutions with higher utility in games such as Stag-Hunt.