TreeSeeker : Structure arborescente d'essai, d'erreur et de retour dans la recherche approfondie

Résumé

La recherche approfondie nécessite que les agents répondent à des questions complexes via une recherche web multi-étapes, une navigation, une comparaison des preuves et une synthèse. Un défi central consiste à décider comment effectuer la recherche lorsque plusieurs directions semblent plausibles mais que seules certaines mèneront ultérieurement à des preuves fiables. Si un agent suit de manière gloutonne la direction la plus prometteuse à l'instant présent, il risque de prolonger une piste faible. S'il explore sans discipline, il peut gaspiller son budget sur des tentatives déconnectées. Nous proposons TreeSeeker, un cadre au moment de l'inférence pour un essai-erreur contrôlé dans la recherche approfondie. TreeSeeker organise la recherche comme une exploration par branchement et retour en arrière sur des états structurés en arbre, où chaque branche représente une direction provisoire pour un sous-objectif. À chaque tour, TreeSearch lit tous les arbres de sous-objectifs, identifie les objectifs actifs et utilise des signaux UCB textuels de valeur, d'incertitude et de risque pour choisir entre exploiter une branche prometteuse, explorer une alternative incertaine ou élaguer une continuation improductive et revenir à un point de branchement antérieur. TreeMem soutient cette boucle de contrôle en conservant les preuves, l'incertitude, les conflits, la progression et les indices d'échec attachés aux branches qui les ont produits, de sorte que les résultats des tentatives puissent guider les décisions ultérieures. Des expériences sur XBench-DeepSearch, BrowseComp et BrowseComp-ZH montrent que TreeSeeker surpasse systématiquement les références open-source robustes, suggérant qu'un contrôle explicite par branchement et retour en arrière complète un raisonnement et une exécution d'outils plus puissants.

English

Deep search requires agents to answer complex questions through multi-step web search, browsing, evidence comparison, and synthesis. A central challenge is deciding how to search when several directions look plausible but only some will later lead to reliable evidence. If an agent greedily follows the current best-looking direction, it may keep extending a weak continuation. If it explores without discipline, it may waste budget on disconnected trials. We propose TreeSeeker, an inference-time framework for controlled trial-and-error in deep search. TreeSeeker organizes search as branch-and-return search over tree-structured states, where each branch is a tentative direction for a sub-goal. At each round, TreeSearch reads all sub-goal trees, identifies active goals, and uses textual UCB signals of value, uncertainty, and risk to select among exploiting a promising branch, exploring an uncertain alternative, or pruning an unproductive continuation and returning to an earlier branch point. TreeMem supports this control loop by keeping evidence, uncertainty, conflicts, progress, and failure cues attached to the branches that produced them, so trial outcomes can guide later decisions. Experiments on XBench-DeepSearch, BrowseComp, and BrowseComp-ZH show that TreeSeeker consistently outperforms strong open-source baselines, suggesting that explicit branch-and-return control complements stronger reasoning and tool execution.