Identificação da Melhor Ação com Dupla Fidelidade para Árvore Minimax Estocástica

Resumo

Estudamos a identificação de melhor ação com confiança fixa (BAI) em árvores minimax estocásticas. Este problema é cada vez mais relevante no planejamento moderno de IA, onde a busca minimax profunda e a Busca em Árvore Monte Carlo (MCTS) com rollouts longos de modelos de linguagem enfrentam uma troca fundamental: avaliações heurísticas são baratas, mas tendenciosas, enquanto rollouts precisos são confiáveis, mas proibitivamente caros. Propomos o 2FFS, um algoritmo de busca em árvore com duas fidelidades que traz ideias de bandidos multi-fidelidade em cenários planos para árvores. O algoritmo combina expansão rápida estilo minimax com amostragem estocástica estilo MCTS, decidindo adaptativamente quando explorar avaliações tendenciosas baratas e quando invocar avaliações precisas caras para certificação local. Provamos a correção com confiança fixa, estabelecemos parada finita para identificação exata e fornecemos um limite superior de custo polinomial em profundidade para árvores de profundidade geral. Em experimentos numéricos com árvores estocásticas, o 2FFS utiliza substancialmente menos amostras e operações computacionais em comparação com a linha de base BAI-MCTS existente.

English

We study fixed-confidence best-action identification (BAI) in stochastic minimax trees. This problem is increasingly relevant in modern AI planning, where deep minimax search and Monte Carlo Tree Search (MCTS) with language model long rollouts face a fundamental tradeoff: heuristic evaluations are cheap but biased, while accurate rollouts are reliable but prohibitively expensive. We propose 2FFS, a two-fidelity tree-search algorithm that brings multi-fidelity flat bandit ideas into trees. The algorithm combines minimax-style fast expansion with MCTS-style stochastic sampling, adaptively deciding when to exploit cheap biased evaluations and when to invoke expensive accurate evaluations for local certification. We prove fixed-confidence correctness, establish finite stopping for exact identification, and give a polynomial-depth cost upper bound for general-depth trees. Across numerical stochastic-tree experiments, 2FFS uses substantially fewer samples and computational operations comparing to existing BAI-MCTS baseline.