Minimização de Arrependimento com Oponentes Adaptativos em Jogos Repetidos

Resumo

Neste artigo, estudamos a minimização de arrependimento em jogos repetidos com oponentes adaptativos que podem responder com base nos históricos de jogadas. Sabe-se que a métrica padrão de arrependimento externo na aprendizagem online não consegue capturar essa adaptabilidade. Para considerar o raciocínio contrafactual dos jogadores, introduzimos o {\tt Arrependimento de Política Repetida (RP-Regret)}, uma métrica da teoria dos jogos que mede a diferença entre a utilidade acumulada realizada e a melhor utilidade acumulada em retrospectiva, quando todos os jogadores podem responder ao histórico de jogadas. Comparada a noções de arrependimento existentes neste contexto, a nossa é nativa de jogos repetidos, permitindo comparadores mais fortes e oponentes com menos restrições, mantendo a possibilidade de encontrar equilíbrios melhores quando todos os jogadores a minimizam. Primeiro, identificamos condições necessárias para obter o {\tt RP-Regret} sublinear no tempo, sobre a variação das estratégias do comparador do jogador na definição de arrependimento e sobre as memórias tanto do comparador quanto das estratégias dos oponentes. Em seguida, estudamos condições adicionais e algoritmos demonstráveis para minimizar o {\tt RP-Regret}, que por definição é não convexo no espaço de estratégias. Para enfrentar esse desafio, propomos três algoritmos: (i) um baseado em um oráculo de otimização, conforme assumido em alguns trabalhos anteriores em aprendizagem online não convexa; (ii) um que minimiza uma aproximação convexa e linearizada do {\tt RP-Regret} a cada iteração; (iii) um que minimiza diretamente o {\tt RP-Regret} quando os oponentes mudam de estratégia lentamente. Além disso, quando todos os jogadores podem executar algoritmos para minimizar o {\tt RP-Regret} (ou sua variante linearizada), certos equilíbrios perfeitos em subjogos do jogo repetido podem ser aprendidos. Também fornecemos experimentos mostrando que minimizar nossas noções de arrependimento pode levar a soluções mais cooperativas com maior utilidade em jogos como o Stag-Hunt.

English

In this paper, we study regret minimization in repeated games with adaptive opponents who can respond based on histories of play. The standard metric of external regret in online learning is known to fail to capture such adaptivity. To account for players' counterfactual reasoning, we introduce {\tt Repeated Policy Regret (RP-Regret)}, a game-theoretic metric that measures the difference between the realized and the best-in-hindsight accumulated utility when all players can respond to the history of play. Compared to existing regret notions in this setting, ours is native to repeated game playing, enabling stronger comparators and opponents with fewer constraints, while maintaining the possibility of finding better equilibria when all players minimize it. We first identify necessary conditions for obtaining {\tt RP-Regret} sublinear in time, on the variation of the player's comparator strategies in the regret definition and on the memories of both the comparator and opponents' strategies. We then study additional conditions and provable algorithms to minimize {\tt RP-Regret}, which is by definition non-convex in the strategy space. To address this challenge, we propose three algorithms: (i) one based on an optimization oracle, as assumed in some prior work in online non-convex learning; (ii) one that minimizes a convex and linearized surrogate of {\tt RP-Regret} at each iteration; (iii) one that directly minimizes {\tt RP-Regret} when opponents change strategies slowly. Furthermore, when all players can run algorithms to minimize the {\tt RP-Regret} (or its linearized variant), certain subgame perfect equilibria of the repeated game can be learned. We also provide experiments showing that minimizing our regret notions can lead to more cooperative solutions with higher utility in games such as Stag-Hunt.