TreeSeeker: Baumstrukturierte Versuch-und-Irrtum-Rückkehr in der Tiefensuche

Zusammenfassung

Tiefensuche erfordert, dass Agenten komplexe Fragen durch mehrstufige Websuche, Browsen, Beweisvergleich und Synthese beantworten. Eine zentrale Herausforderung besteht darin, zu entscheiden, wie gesucht werden soll, wenn mehrere Richtungen plausibel erscheinen, aber nur einige später zu verlässlichen Beweisen führen. Wenn ein Agent gierig der aktuell vielversprechendsten Richtung folgt, kann er eine schwache Fortsetzung immer weiter ausdehnen. Wenn er ohne Disziplin erkundet, kann er das Budget für zusammenhangslose Versuche verschwenden. Wir schlagen TreeSeeker vor, ein Inferenzzeit-Framework für kontrolliertes Versuch-und-Irrtum in der Tiefensuche. TreeSeeker organisiert die Suche als Branch-and-Return-Suche über baumstrukturierte Zustände, wobei jeder Zweig eine vorläufige Richtung für ein Teilziel darstellt. In jeder Runde liest TreeSearch alle Teilzielbäume, identifiziert aktive Ziele und verwendet textuelle UCB-Signale für Wert, Unsicherheit und Risiko, um zwischen der Ausnutzung eines vielversprechenden Zweigs, der Erkundung einer unsicheren Alternative oder dem Beschneiden einer unproduktiven Fortsetzung und der Rückkehr zu einem früheren Verzweigungspunkt zu wählen. TreeMem unterstützt diesen Regelkreis, indem es Beweise, Unsicherheit, Konflikte, Fortschritt und Fehlersignale an den Zweigen anheftet, die sie erzeugt haben, sodass Versuchsergebnisse spätere Entscheidungen leiten können. Experimente auf XBench-DeepSearch, BrowseComp und BrowseComp-ZH zeigen, dass TreeSeeker durchweg starke Open-Source-Baselines übertrifft, was darauf hindeutet, dass explizite Branch-and-Return-Kontrolle stärkeres Reasoning und Werkzeugausführung ergänzt.

English

Deep search requires agents to answer complex questions through multi-step web search, browsing, evidence comparison, and synthesis. A central challenge is deciding how to search when several directions look plausible but only some will later lead to reliable evidence. If an agent greedily follows the current best-looking direction, it may keep extending a weak continuation. If it explores without discipline, it may waste budget on disconnected trials. We propose TreeSeeker, an inference-time framework for controlled trial-and-error in deep search. TreeSeeker organizes search as branch-and-return search over tree-structured states, where each branch is a tentative direction for a sub-goal. At each round, TreeSearch reads all sub-goal trees, identifies active goals, and uses textual UCB signals of value, uncertainty, and risk to select among exploiting a promising branch, exploring an uncertain alternative, or pruning an unproductive continuation and returning to an earlier branch point. TreeMem supports this control loop by keeping evidence, uncertainty, conflicts, progress, and failure cues attached to the branches that produced them, so trial outcomes can guide later decisions. Experiments on XBench-DeepSearch, BrowseComp, and BrowseComp-ZH show that TreeSeeker consistently outperforms strong open-source baselines, suggesting that explicit branch-and-return control complements stronger reasoning and tool execution.