Минимизация сожаления с адаптивными противниками в повторяющихся играх

Аннотация

В данной статье мы изучаем минимизацию сожаления в повторяющихся играх с адаптивными противниками, которые могут реагировать на основе истории игры. Известно, что стандартная метрика внешнего сожаления в онлайн-обучении не способна учесть такую адаптивность. Для учета контрфактического рассуждения игроков мы вводим повторяющееся сожаление о политике (RP-Regret) — теоретико-игровую метрику, измеряющую разницу между реализованной и наилучшей постфактум накопленной полезностью, когда все игроки могут реагировать на историю игры. По сравнению с существующими понятиями сожаления в этом контексте, наше является естественным для повторяющихся игр, позволяя использовать более сильных компараторов и противников с меньшими ограничениями, сохраняя при этом возможность нахождения лучших равновесий, когда все игроки его минимизируют. Сначала мы определяем необходимые условия для получения суб-линейного по времени RP-Regret, касающиеся вариации компараторных стратегий игрока в определении сожаления и памяти как компаратора, так и стратегий противников. Затем мы изучаем дополнительные условия и доказуемые алгоритмы для минимизации RP-Regret, который по определению является невыпуклым в пространстве стратегий. Для решения этой задачи мы предлагаем три алгоритма: (i) основанный на оракуле оптимизации, как предполагалось в некоторых предыдущих работах по онлайн-невыпуклому обучению; (ii) минимизирующий на каждой итерации выпуклый и линеаризованный суррогат RP-Regret; (iii) напрямую минимизирующий RP-Regret в условиях медленного изменения стратегий противников. Кроме того, когда все игроки могут запускать алгоритмы минимизации RP-Regret (или его линеаризованной версии), можно обучить некоторые совершенные по подыграм равновесия повторяющейся игры. Также мы приводим эксперименты, показывающие, что минимизация наших понятий сожаления может приводить к более кооперативным решениям с более высокой полезностью в таких играх, как «Охота на оленя».

English

In this paper, we study regret minimization in repeated games with adaptive opponents who can respond based on histories of play. The standard metric of external regret in online learning is known to fail to capture such adaptivity. To account for players' counterfactual reasoning, we introduce {\tt Repeated Policy Regret (RP-Regret)}, a game-theoretic metric that measures the difference between the realized and the best-in-hindsight accumulated utility when all players can respond to the history of play. Compared to existing regret notions in this setting, ours is native to repeated game playing, enabling stronger comparators and opponents with fewer constraints, while maintaining the possibility of finding better equilibria when all players minimize it. We first identify necessary conditions for obtaining {\tt RP-Regret} sublinear in time, on the variation of the player's comparator strategies in the regret definition and on the memories of both the comparator and opponents' strategies. We then study additional conditions and provable algorithms to minimize {\tt RP-Regret}, which is by definition non-convex in the strategy space. To address this challenge, we propose three algorithms: (i) one based on an optimization oracle, as assumed in some prior work in online non-convex learning; (ii) one that minimizes a convex and linearized surrogate of {\tt RP-Regret} at each iteration; (iii) one that directly minimizes {\tt RP-Regret} when opponents change strategies slowly. Furthermore, when all players can run algorithms to minimize the {\tt RP-Regret} (or its linearized variant), certain subgame perfect equilibria of the repeated game can be learned. We also provide experiments showing that minimizing our regret notions can lead to more cooperative solutions with higher utility in games such as Stag-Hunt.