Monopoly Deal : Un environnement de référence pour les jeux à réponse unilatérale bornée

Résumé

Les jeux de cartes sont largement utilisés pour étudier la prise de décision séquentielle dans des conditions d'incertitude, avec des analogues dans le monde réel en négociation, finance et cybersécurité. Ces jeux se répartissent généralement en trois catégories selon le flux de contrôle : séquentiel strict (les joueurs alternent des actions uniques), réponse déterministe (certaines actions déclenchent un résultat fixe) et réponse réciproque non bornée (les contre-jeux alternés sont autorisés). Une structure moins explorée mais stratégiquement riche est la réponse unilatérale bornée, où l'action d'un joueur transfère brièvement le contrôle à l'adversaire, qui doit satisfaire une condition fixe via un ou plusieurs coups avant la résolution du tour. Nous nommons jeux à réponse unilatérale bornée (JRUB) les jeux comportant ce mécanisme. Nous présentons une version modifiée de Monopoly Deal comme environnement de référence isolant cette dynamique, où une action Loyers force l'adversaire à choisir des actifs de paiement. L'algorithme de référence, la minimisation des regrets contrefactuels (CFR), converge vers des stratégies efficaces sans extensions algorithmiques novatrices. Une plateforme de recherche légère full-stack unifie l'environnement, un moteur CFR parallélisé et une interface web jouable par des humains. L'agent CFR entraîné et le code source sont disponibles sur https://monopolydeal.ai.

English

Card games are widely used to study sequential decision-making under uncertainty, with real-world analogues in negotiation, finance, and cybersecurity. These games typically fall into three categories based on the flow of control: strictly sequential (players alternate single actions), deterministic response (some actions trigger a fixed outcome), and unbounded reciprocal response (alternating counterplays are permitted). A less-explored but strategically rich structure is the bounded one-sided response, where a player's action briefly transfers control to the opponent, who must satisfy a fixed condition through one or more moves before the turn resolves. We term games featuring this mechanism Bounded One-Sided Response Games (BORGs). We introduce a modified version of Monopoly Deal as a benchmark environment that isolates this dynamic, where a Rent action forces the opponent to choose payment assets. The gold-standard algorithm, Counterfactual Regret Minimization (CFR), converges on effective strategies without novel algorithmic extensions. A lightweight full-stack research platform unifies the environment, a parallelized CFR runtime, and a human-playable web interface. The trained CFR agent and source code are available at https://monopolydeal.ai.