Двухуровневая идентификация наилучшего действия для стохастического минимаксного дерева

Аннотация

Мы исследуем задачу идентификации наилучшего действия с фиксированной достоверностью (BAI) в стохастических минимаксных деревьях. Эта проблема приобретает все большую актуальность в современном планировании ИИ, где глубокий минимаксный поиск и поиск по дереву Монте-Карло (MCTS) с длинными роллаутами на основе языковых моделей сталкиваются с фундаментальным компромиссом: эвристические оценки дешевы, но смещены, в то время как точные роллауты надежны, но непомерно дороги. Мы предлагаем 2FFS — алгоритм поиска по дереву с двумя уровнями точности, который переносит идеи многоуровневых плоских бандитов в деревья. Алгоритм сочетает минимаксную быструю экспансию со стохастической выборкой в стиле MCTS, адаптивно решая, когда использовать дешевые смещенные оценки, а когда запускать дорогие точные оценки для локальной верификации. Мы доказываем корректность с фиксированной достоверностью, устанавливаем финитную остановку для точной идентификации и приводим полиномиальную верхнюю границу стоимости по глубине для деревьев произвольной глубины. В численных экспериментах на стохастических деревьях 2FFS требует существенно меньше выборок и вычислительных операций по сравнению с существующим базовым методом BAI-MCTS.

English

We study fixed-confidence best-action identification (BAI) in stochastic minimax trees. This problem is increasingly relevant in modern AI planning, where deep minimax search and Monte Carlo Tree Search (MCTS) with language model long rollouts face a fundamental tradeoff: heuristic evaluations are cheap but biased, while accurate rollouts are reliable but prohibitively expensive. We propose 2FFS, a two-fidelity tree-search algorithm that brings multi-fidelity flat bandit ideas into trees. The algorithm combines minimax-style fast expansion with MCTS-style stochastic sampling, adaptively deciding when to exploit cheap biased evaluations and when to invoke expensive accurate evaluations for local certification. We prove fixed-confidence correctness, establish finite stopping for exact identification, and give a polynomial-depth cost upper bound for general-depth trees. Across numerical stochastic-tree experiments, 2FFS uses substantially fewer samples and computational operations comparing to existing BAI-MCTS baseline.