Twee-nauwkeurigheidsbest-actie-identificatie voor stochastische minimaxboom
Two-Fidelity Best-Action Identification for Stochastic Minimax Tree
June 1, 2026
Auteurs: Peter Chen, Xi Chen
cs.AI
Samenvatting
Wij bestuderen vaste-betrouwbaarheid beste-actie-identificatie (BAI) in stochastische minimaxbomen. Dit probleem is steeds relevanter in moderne AI-planning, waar diep minimax zoeken en Monte Carlo-boomzoeken (MCTS) met lange uitrol van taalmodellen een fundamentele afweging kennen: heuristische evaluaties zijn goedkoop maar vertekend, terwijl nauwkeurige uitrollen betrouwbaar maar ontoelaatbaar duur zijn. Wij stellen 2FFS voor, een tweefidelity-boomzoekalgoritme dat multifidelity-platte-bandidéeeën in bomen introduceert. Het algoritme combineert snelle uitbreiding in minimax-stijl met stochastische steekproefneming in MCTS-stijl, en beslist adaptief wanneer goedkope vertekende evaluaties worden benut en wanneer dure nauwkeurige evaluaties worden ingeroepen voor lokale certificering. Wij bewijzen vaste-betrouwbaarheidscorrectheid, tonen eindig stoppen aan voor exacte identificatie, en geven een polynoom-dieptekostenbovengrens voor bomen van algemene diepte. In numerieke stochastische-boom experimenten gebruikt 2FFS aanzienlijk minder samples en rekenkundige bewerkingen vergeleken met de bestaande BAI-MCTS baseline.
English
We study fixed-confidence best-action identification (BAI) in stochastic minimax trees. This problem is increasingly relevant in modern AI planning, where deep minimax search and Monte Carlo Tree Search (MCTS) with language model long rollouts face a fundamental tradeoff: heuristic evaluations are cheap but biased, while accurate rollouts are reliable but prohibitively expensive. We propose 2FFS, a two-fidelity tree-search algorithm that brings multi-fidelity flat bandit ideas into trees. The algorithm combines minimax-style fast expansion with MCTS-style stochastic sampling, adaptively deciding when to exploit cheap biased evaluations and when to invoke expensive accurate evaluations for local certification. We prove fixed-confidence correctness, establish finite stopping for exact identification, and give a polynomial-depth cost upper bound for general-depth trees. Across numerical stochastic-tree experiments, 2FFS uses substantially fewer samples and computational operations comparing to existing BAI-MCTS baseline.