Identification de la meilleure action à deux niveaux de fidélité pour un arbre minimax stochastique
Two-Fidelity Best-Action Identification for Stochastic Minimax Tree
June 1, 2026
Auteurs: Peter Chen, Xi Chen
cs.AI
Résumé
Nous étudions l'identification de la meilleure action avec confiance fixée (BAI) dans les arbres minimax stochastiques. Ce problème devient de plus en plus pertinent dans la planification moderne en IA, où la recherche minimax approfondie et la recherche arborescente Monte-Carlo (MCTS) avec des simulations longues de modèles linguistiques sont confrontées à un compromis fondamental : les évaluations heuristiques sont peu coûteuses mais biaisées, tandis que les simulations précises sont fiables mais d'un coût prohibitif. Nous proposons 2FFS, un algorithme de recherche arborescente à deux fidélités qui transpose les idées des bandits plats multi-fidélité aux arbres. L'algorithme combine une expansion rapide de type minimax avec un échantillonnage stochastique de type MCTS, en décidant de manière adaptative quand exploiter des évaluations biaisées peu coûteuses et quand recourir à des évaluations précises coûteuses pour une certification locale. Nous prouvons la correction à confiance fixée, établissons un arrêt fini pour l'identification exacte et donnons une borne supérieure de coût polynomiale en profondeur pour les arbres de profondeur générale. À travers des expériences numériques sur des arbres stochastiques, 2FFS utilise nettement moins d'échantillons et d'opérations de calcul que la baseline existante BAI-MCTS.
English
We study fixed-confidence best-action identification (BAI) in stochastic minimax trees. This problem is increasingly relevant in modern AI planning, where deep minimax search and Monte Carlo Tree Search (MCTS) with language model long rollouts face a fundamental tradeoff: heuristic evaluations are cheap but biased, while accurate rollouts are reliable but prohibitively expensive. We propose 2FFS, a two-fidelity tree-search algorithm that brings multi-fidelity flat bandit ideas into trees. The algorithm combines minimax-style fast expansion with MCTS-style stochastic sampling, adaptively deciding when to exploit cheap biased evaluations and when to invoke expensive accurate evaluations for local certification. We prove fixed-confidence correctness, establish finite stopping for exact identification, and give a polynomial-depth cost upper bound for general-depth trees. Across numerical stochastic-tree experiments, 2FFS uses substantially fewer samples and computational operations comparing to existing BAI-MCTS baseline.