Monopoly Deal: Бенчмарк-среда для игр с ограниченным односторонним ответом

Аннотация

Карточные игры широко используются для изучения последовательного принятия решений в условиях неопределенности, имея аналоги в реальном мире в сферах переговоров, финансов и кибербезопасности. Эти игры, как правило, делятся на три категории в зависимости от потока управления: строго последовательные (игроки поочередно выполняют одиночные действия), детерминированного ответа (некоторые действия вызывают фиксированный исход) и неограниченного взаимного ответа (допускаются поочередные контрдействия). Менее изученной, но стратегически богатой структурой является ограниченный односторонний ответ, когда действие игрока ненадолго передает управление оппоненту, который должен выполнить фиксированное условие одним или несколькими ходами до разрешения хода. Мы называем игры, обладающие этим механизмом, играми с ограниченным односторонним ответом (ОООИ). Мы представляем модифицированную версию Monopoly Deal в качестве эталонной среды, которая изолирует эту динамику, где действие "Арендная плата" вынуждает оппонента выбирать активы для оплаты. Золотой стандарт среди алгоритмов — минимизация контрфактического сожаления (CFR) — сходится к эффективным стратегиям без новых алгоритмических расширений. Облегченная полнофункциональная исследовательская платформа объединяет среду, параллелизованную среду выполнения CFR и веб-интерфейс, доступный для игры человеком. Обученный агент CFR и исходный код доступны по адресу https://monopolydeal.ai.

English

Card games are widely used to study sequential decision-making under uncertainty, with real-world analogues in negotiation, finance, and cybersecurity. These games typically fall into three categories based on the flow of control: strictly sequential (players alternate single actions), deterministic response (some actions trigger a fixed outcome), and unbounded reciprocal response (alternating counterplays are permitted). A less-explored but strategically rich structure is the bounded one-sided response, where a player's action briefly transfers control to the opponent, who must satisfy a fixed condition through one or more moves before the turn resolves. We term games featuring this mechanism Bounded One-Sided Response Games (BORGs). We introduce a modified version of Monopoly Deal as a benchmark environment that isolates this dynamic, where a Rent action forces the opponent to choose payment assets. The gold-standard algorithm, Counterfactual Regret Minimization (CFR), converges on effective strategies without novel algorithmic extensions. A lightweight full-stack research platform unifies the environment, a parallelized CFR runtime, and a human-playable web interface. The trained CFR agent and source code are available at https://monopolydeal.ai.