Minimización del Arrepentimiento con Oponentes Adaptativos en Juegos Repetidos

Resumen

En este artículo, estudiamos la minimización del arrepentimiento en juegos repetidos con oponentes adaptativos que pueden responder basándose en historiales de juego. Se sabe que la métrica estándar de arrepentimiento externo en aprendizaje en línea no logra capturar dicha adaptabilidad. Para dar cuenta del razonamiento contrafáctico de los jugadores, introducimos {\tt Arrepentimiento de Política Repetida (RP-Regret)}, una métrica teórica de juegos que mide la diferencia entre la utilidad acumulada realizada y la mejor en retrospectiva cuando todos los jugadores pueden responder al historial de juego. En comparación con las nociones de arrepentimiento existentes en este contexto, la nuestra es nativa del juego repetido, lo que permite comparadores más fuertes y oponentes con menos restricciones, manteniendo la posibilidad de encontrar mejores equilibrios cuando todos los jugadores lo minimizan. Primero identificamos condiciones necesarias para obtener {\tt RP-Regret} sublineal en el tiempo, sobre la variación de las estrategias de comparación del jugador en la definición de arrepentimiento y sobre las memorias tanto del comparador como de las estrategias de los oponentes. Luego estudiamos condiciones adicionales y algoritmos demostrables para minimizar {\tt RP-Regret}, que por definición es no convexo en el espacio de estrategias. Para abordar este desafío, proponemos tres algoritmos: (i) uno basado en un oráculo de optimización, como se asumió en algunos trabajos previos en aprendizaje no convexo en línea; (ii) uno que minimiza un sustituto convexo y linealizado de {\tt RP-Regret} en cada iteración; (iii) uno que minimiza directamente {\tt RP-Regret} cuando los oponentes cambian sus estrategias lentamente. Además, cuando todos los jugadores pueden ejecutar algoritmos para minimizar el {\tt RP-Regret} (o su variante linealizada), se pueden aprender ciertos equilibrios perfectos en subjuegos del juego repetido. También proporcionamos experimentos que muestran que minimizar nuestras nociones de arrepentimiento puede conducir a soluciones más cooperativas con mayor utilidad en juegos como el de la Caza del Ciervo.

English

In this paper, we study regret minimization in repeated games with adaptive opponents who can respond based on histories of play. The standard metric of external regret in online learning is known to fail to capture such adaptivity. To account for players' counterfactual reasoning, we introduce {\tt Repeated Policy Regret (RP-Regret)}, a game-theoretic metric that measures the difference between the realized and the best-in-hindsight accumulated utility when all players can respond to the history of play. Compared to existing regret notions in this setting, ours is native to repeated game playing, enabling stronger comparators and opponents with fewer constraints, while maintaining the possibility of finding better equilibria when all players minimize it. We first identify necessary conditions for obtaining {\tt RP-Regret} sublinear in time, on the variation of the player's comparator strategies in the regret definition and on the memories of both the comparator and opponents' strategies. We then study additional conditions and provable algorithms to minimize {\tt RP-Regret}, which is by definition non-convex in the strategy space. To address this challenge, we propose three algorithms: (i) one based on an optimization oracle, as assumed in some prior work in online non-convex learning; (ii) one that minimizes a convex and linearized surrogate of {\tt RP-Regret} at each iteration; (iii) one that directly minimizes {\tt RP-Regret} when opponents change strategies slowly. Furthermore, when all players can run algorithms to minimize the {\tt RP-Regret} (or its linearized variant), certain subgame perfect equilibria of the repeated game can be learned. We also provide experiments showing that minimizing our regret notions can lead to more cooperative solutions with higher utility in games such as Stag-Hunt.