Identificación de la Mejor Acción con Dos Fidelidades para Árbol Minimax Estocástico

Resumen

Estudiamos la identificación de la mejor acción con confianza fija (BAI) en árboles minimax estocásticos. Este problema es cada vez más relevante en la planificación moderna de IA, donde la búsqueda minimax profunda y la Búsqueda de Árboles de Monte Carlo (MCTS) con simulaciones largas basadas en modelos de lenguaje enfrentan una disyuntiva fundamental: las evaluaciones heurísticas son económicas pero sesgadas, mientras que las simulaciones precisas son fiables pero prohibitivamente costosas. Proponemos 2FFS, un algoritmo de búsqueda en árbol de dos fidelidades que incorpora ideas de bandidos planos multifidelidad en árboles. El algoritmo combina una expansión rápida de tipo minimax con un muestreo estocástico de tipo MCTS, decidiendo adaptativamente cuándo explotar evaluaciones baratas y sesgadas y cuándo invocar evaluaciones precisas y costosas para certificación local. Demostramos la corrección con confianza fija, establecemos la parada finita para la identificación exacta y proporcionamos una cota superior de costo de profundidad polinomial para árboles de profundidad general. En experimentos numéricos con árboles estocásticos, 2FFS utiliza sustancialmente menos muestras y operaciones computacionales en comparación con la línea base de BAI-MCTS existente.

English

We study fixed-confidence best-action identification (BAI) in stochastic minimax trees. This problem is increasingly relevant in modern AI planning, where deep minimax search and Monte Carlo Tree Search (MCTS) with language model long rollouts face a fundamental tradeoff: heuristic evaluations are cheap but biased, while accurate rollouts are reliable but prohibitively expensive. We propose 2FFS, a two-fidelity tree-search algorithm that brings multi-fidelity flat bandit ideas into trees. The algorithm combines minimax-style fast expansion with MCTS-style stochastic sampling, adaptively deciding when to exploit cheap biased evaluations and when to invoke expensive accurate evaluations for local certification. We prove fixed-confidence correctness, establish finite stopping for exact identification, and give a polynomial-depth cost upper bound for general-depth trees. Across numerical stochastic-tree experiments, 2FFS uses substantially fewer samples and computational operations comparing to existing BAI-MCTS baseline.