TreeSeeker: Boomgestructureerd Proberen, Fouten en Terugkeer in Diep Zoeken

Samenvatting

Diepe zoekopdrachten vereisen dat agenten complexe vragen beantwoorden door middel van meerstaps zoeken op het web, browsen, het vergelijken van bewijsmateriaal en synthese. Een centrale uitdaging is het bepalen van de zoekstrategie wanneer meerdere richtingen plausibel lijken, maar slechts enkele later tot betrouwbaar bewijs leiden. Als een agent gretig de huidige beste richting volgt, kan hij een zwakke vervolgroute blijven uitbreiden. Als hij zonder discipline verkent, kan hij het budget verspillen aan onsamenhangende pogingen. Wij stellen TreeSeeker voor, een raamwerk voor gecontroleerd vallen-en-opstaan tijdens de inferentiefase in diep zoeken. TreeSeeker organiseert het zoeken als een tak-en-terugkeer-zoekmethode over boomstructuurtoestanden, waarbij elke tak een voorlopige richting voor een subdoel vertegenwoordigt. In elke ronde leest TreeSeeker alle subdoelbomen, identificeert actieve doelen en gebruikt textuele UCB-signalen (waarde, onzekerheid en risico) om te kiezen tussen het exploiteren van een veelbelovende tak, het verkennen van een onzeker alternatief, of het wegsnoeien van een onproductief vervolg en terugkeren naar een eerder vertakkingspunt. TreeMem ondersteunt deze controlekringloop door bewijs, onzekerheid, conflicten, voortgang en mislukkingsaanwijzingen te koppelen aan de takken die ze hebben opgeleverd, zodat de uitkomsten van pogingen latere beslissingen kunnen sturen. Experimenten op XBench-DeepSearch, BrowseComp en BrowseComp-ZH tonen aan dat TreeSeeker consequent beter presteert dan sterke open-source basislijnen, wat suggereert dat expliciete tak-en-terugkeer-controle een aanvulling vormt op sterkere redeneer- en tooluitvoering.

English

Deep search requires agents to answer complex questions through multi-step web search, browsing, evidence comparison, and synthesis. A central challenge is deciding how to search when several directions look plausible but only some will later lead to reliable evidence. If an agent greedily follows the current best-looking direction, it may keep extending a weak continuation. If it explores without discipline, it may waste budget on disconnected trials. We propose TreeSeeker, an inference-time framework for controlled trial-and-error in deep search. TreeSeeker organizes search as branch-and-return search over tree-structured states, where each branch is a tentative direction for a sub-goal. At each round, TreeSearch reads all sub-goal trees, identifies active goals, and uses textual UCB signals of value, uncertainty, and risk to select among exploiting a promising branch, exploring an uncertain alternative, or pruning an unproductive continuation and returning to an earlier branch point. TreeMem supports this control loop by keeping evidence, uncertainty, conflicts, progress, and failure cues attached to the branches that produced them, so trial outcomes can guide later decisions. Experiments on XBench-DeepSearch, BrowseComp, and BrowseComp-ZH show that TreeSeeker consistently outperforms strong open-source baselines, suggesting that explicit branch-and-return control complements stronger reasoning and tool execution.