Zweistufige Best-Action-Identifikation für stochastische Minimax-Bäume

Zusammenfassung

Wir untersuchen die Best-Aktions-Identifikation (BAI) mit festem Konfidenzniveau in stochastischen Minimax-Bäumen. Dieses Problem wird in der modernen KI-Planung zunehmend relevant, wo tiefe Minimax-Suche und Monte-Carlo-Baumsuche (MCTS) mit langen Rollouts von Sprachmodellen einem grundlegenden Zielkonflikt gegenüberstehen: Heuristische Bewertungen sind günstig, aber verzerrt, während genaue Rollouts zuverlässig, aber unerschwinglich teuer sind. Wir schlagen 2FFS vor, einen Algorithmus zur Baumsuche mit zwei Genauigkeitsstufen, der Ideen von Banditen mit mehreren Genauigkeitsstufen in Bäume überträgt. Der Algorithmus kombiniert schnelle Expansion im Minimax-Stil mit stochastischem Sampling im MCTS-Stil und entscheidet adaptiv, wann günstige verzerrte Bewertungen ausgenutzt und wann teure genaue Bewertungen zur lokalen Zertifizierung herangezogen werden sollen. Wir beweisen die Korrektheit mit festem Konfidenzniveau, etablieren endliches Stoppen für die exakte Identifikation und geben eine polynomielle obere Schranke für die Kosten in Abhängigkeit von der Tiefe für Bäume allgemeiner Tiefe an. In numerischen Experimenten mit stochastischen Bäumen benötigt 2FFS wesentlich weniger Stichproben und Rechenoperationen im Vergleich zur bestehenden BAI-MCTS-Basislinie.

English

We study fixed-confidence best-action identification (BAI) in stochastic minimax trees. This problem is increasingly relevant in modern AI planning, where deep minimax search and Monte Carlo Tree Search (MCTS) with language model long rollouts face a fundamental tradeoff: heuristic evaluations are cheap but biased, while accurate rollouts are reliable but prohibitively expensive. We propose 2FFS, a two-fidelity tree-search algorithm that brings multi-fidelity flat bandit ideas into trees. The algorithm combines minimax-style fast expansion with MCTS-style stochastic sampling, adaptively deciding when to exploit cheap biased evaluations and when to invoke expensive accurate evaluations for local certification. We prove fixed-confidence correctness, establish finite stopping for exact identification, and give a polynomial-depth cost upper bound for general-depth trees. Across numerical stochastic-tree experiments, 2FFS uses substantially fewer samples and computational operations comparing to existing BAI-MCTS baseline.