Spijtminimalisatie met Adaptieve Tegenstanders in Herhaalde Spellen

Samenvatting

In dit artikel bestuderen we spijtminimalisatie in herhaalde spellen met adaptieve tegenstanders die kunnen reageren op basis van de geschiedenis van het spel. De standaardmaatstaf van externe spijt in online leren blijkt niet in staat om dergelijke adaptiviteit te vatten. Om rekening te houden met het contrafeitelijk redeneren van spelers introduceren we {\tt Herhaald Beleidsspijt (RP-Spijt)}, een speltheoretische maatstaf die het verschil meet tussen de gerealiseerde en de best mogelijke achteraf geaccumuleerde nutsfunctie, wanneer alle spelers kunnen reageren op de spelgeschiedenis. Vergeleken met bestaande spijtconcepten in deze context is de onze inherent aan het spelen van herhaalde spellen, wat sterkere vergelijkingspunten en tegenstanders met minder beperkingen mogelijk maakt, terwijl de mogelijkheid om betere evenwichten te vinden behouden blijft wanneer alle spelers deze minimaliseren. We identificeren eerst noodzakelijke voorwaarden voor het verkrijgen van sublineaire {\tt RP-Spijt} in de tijd, met betrekking tot de variatie van de vergelijkingsstrategieën van de speler in de spijtdefinitie en de geheugens van zowel de vergelijkings- als de tegenstandersstrategieën. Vervolgens bestuderen we aanvullende voorwaarden en bewijsbare algoritmen om {\tt RP-Spijt} te minimaliseren, wat per definitie niet-convex is in de strategieruimte. Om deze uitdaging aan te pakken, stellen we drie algoritmen voor: (i) een op basis van een optimalisatieorakel, zoals aangenomen in eerder werk over online niet-convex leren; (ii) een dat een convexe en gelineariseerde surrogaat van {\tt RP-Spijt} minimaliseert bij elke iteratie; (iii) een dat {\tt RP-Spijt} direct minimaliseert wanneer tegenstanders hun strategieën langzaam veranderen. Bovendien kunnen, wanneer alle spelers algoritmen uitvoeren om de {\tt RP-Spijt} (of de gelineariseerde variant) te minimaliseren, bepaalde deelspelperfecte evenwichten van het herhaalde spel worden geleerd. We bieden ook experimenten waaruit blijkt dat het minimaliseren van onze spijtconcepten kan leiden tot meer coöperatieve oplossingen met een hoger nut in spellen zoals de Hertenjacht.

English

In this paper, we study regret minimization in repeated games with adaptive opponents who can respond based on histories of play. The standard metric of external regret in online learning is known to fail to capture such adaptivity. To account for players' counterfactual reasoning, we introduce {\tt Repeated Policy Regret (RP-Regret)}, a game-theoretic metric that measures the difference between the realized and the best-in-hindsight accumulated utility when all players can respond to the history of play. Compared to existing regret notions in this setting, ours is native to repeated game playing, enabling stronger comparators and opponents with fewer constraints, while maintaining the possibility of finding better equilibria when all players minimize it. We first identify necessary conditions for obtaining {\tt RP-Regret} sublinear in time, on the variation of the player's comparator strategies in the regret definition and on the memories of both the comparator and opponents' strategies. We then study additional conditions and provable algorithms to minimize {\tt RP-Regret}, which is by definition non-convex in the strategy space. To address this challenge, we propose three algorithms: (i) one based on an optimization oracle, as assumed in some prior work in online non-convex learning; (ii) one that minimizes a convex and linearized surrogate of {\tt RP-Regret} at each iteration; (iii) one that directly minimizes {\tt RP-Regret} when opponents change strategies slowly. Furthermore, when all players can run algorithms to minimize the {\tt RP-Regret} (or its linearized variant), certain subgame perfect equilibria of the repeated game can be learned. We also provide experiments showing that minimizing our regret notions can lead to more cooperative solutions with higher utility in games such as Stag-Hunt.