Monopoly Deal: Un Entorno de Referencia para Juegos de Respuesta Unilateral Acotada

Resumen

Los juegos de cartas se utilizan ampliamente para estudiar la toma de decisiones secuenciales bajo incertidumbre, con análogos en el mundo real en negociación, finanzas y ciberseguridad. Estos juegos suelen clasificarse en tres categorías según el flujo de control: estrictamente secuenciales (los jugadores alternan acciones individuales), de respuesta determinista (algunas acciones desencadenan un resultado fijo) y de respuesta recíproca ilimitada (se permiten contrajugadas alternantes). Una estructura menos explorada pero estratégicamente rica es la de respuesta unilateral acotada, donde la acción de un jugador transfiere brevemente el control al oponente, quien debe satisfacer una condición fija mediante una o más jugadas antes de que finalice el turno. Denominamos a los juegos que presentan este mecanismo Juegos de Respuesta Unilateral Acotada (BORGs, por sus siglas en inglés). Presentamos una versión modificada de Monopoly Deal como entorno de referencia que aísla esta dinámica, donde una acción de Alquiler obliga al oponente a elegir activos de pago. El algoritmo de referencia, Minimización de Arrepentimiento Contrafactual (CFR), converge en estrategias efectivas sin necesidad de extensiones algorítmicas novedosas. Una plataforma de investigación ligera de pila completa unifica el entorno, un tiempo de ejecución de CFR paralelizado y una interfaz web jugable para humanos. El agente CFR entrenado y el código fuente están disponibles en https://monopolydeal.ai.

English

Card games are widely used to study sequential decision-making under uncertainty, with real-world analogues in negotiation, finance, and cybersecurity. These games typically fall into three categories based on the flow of control: strictly sequential (players alternate single actions), deterministic response (some actions trigger a fixed outcome), and unbounded reciprocal response (alternating counterplays are permitted). A less-explored but strategically rich structure is the bounded one-sided response, where a player's action briefly transfers control to the opponent, who must satisfy a fixed condition through one or more moves before the turn resolves. We term games featuring this mechanism Bounded One-Sided Response Games (BORGs). We introduce a modified version of Monopoly Deal as a benchmark environment that isolates this dynamic, where a Rent action forces the opponent to choose payment assets. The gold-standard algorithm, Counterfactual Regret Minimization (CFR), converges on effective strategies without novel algorithmic extensions. A lightweight full-stack research platform unifies the environment, a parallelized CFR runtime, and a human-playable web interface. The trained CFR agent and source code are available at https://monopolydeal.ai.