Monopoly Deal: Бенчмарк-среда для игр с ограниченным односторонним ответом
Monopoly Deal: A Benchmark Environment for Bounded One-Sided Response Games
October 29, 2025
Авторы: Will Wolf
cs.AI
Аннотация
Карточные игры широко используются для изучения последовательного принятия решений в условиях неопределенности, имея аналоги в реальном мире в сферах переговоров, финансов и кибербезопасности. Эти игры, как правило, делятся на три категории в зависимости от потока управления: строго последовательные (игроки поочередно выполняют одиночные действия), детерминированного ответа (некоторые действия вызывают фиксированный исход) и неограниченного взаимного ответа (допускаются поочередные контрдействия). Менее изученной, но стратегически богатой структурой является ограниченный односторонний ответ, когда действие игрока ненадолго передает управление оппоненту, который должен выполнить фиксированное условие одним или несколькими ходами до разрешения хода. Мы называем игры, обладающие этим механизмом, играми с ограниченным односторонним ответом (ОООИ). Мы представляем модифицированную версию Monopoly Deal в качестве эталонной среды, которая изолирует эту динамику, где действие "Арендная плата" вынуждает оппонента выбирать активы для оплаты. Золотой стандарт среди алгоритмов — минимизация контрфактического сожаления (CFR) — сходится к эффективным стратегиям без новых алгоритмических расширений. Облегченная полнофункциональная исследовательская платформа объединяет среду, параллелизованную среду выполнения CFR и веб-интерфейс, доступный для игры человеком. Обученный агент CFR и исходный код доступны по адресу https://monopolydeal.ai.
English
Card games are widely used to study sequential decision-making under
uncertainty, with real-world analogues in negotiation, finance, and
cybersecurity. These games typically fall into three categories based on the
flow of control: strictly sequential (players alternate single actions),
deterministic response (some actions trigger a fixed outcome), and unbounded
reciprocal response (alternating counterplays are permitted). A less-explored
but strategically rich structure is the bounded one-sided response, where a
player's action briefly transfers control to the opponent, who must satisfy a
fixed condition through one or more moves before the turn resolves. We term
games featuring this mechanism Bounded One-Sided Response Games (BORGs). We
introduce a modified version of Monopoly Deal as a benchmark environment that
isolates this dynamic, where a Rent action forces the opponent to choose
payment assets. The gold-standard algorithm, Counterfactual Regret Minimization
(CFR), converges on effective strategies without novel algorithmic extensions.
A lightweight full-stack research platform unifies the environment, a
parallelized CFR runtime, and a human-playable web interface. The trained CFR
agent and source code are available at https://monopolydeal.ai.