TreeSeeker: Tentativa, Erro e Retorno Estruturados em Árvore na Busca Profunda

Resumo

A pesquisa profunda exige que agentes respondam a perguntas complexas por meio de pesquisa na web em múltiplas etapas, navegação, comparação de evidências e síntese. Um desafio central é decidir como pesquisar quando várias direções parecem plausíveis, mas apenas algumas levarão posteriormente a evidências confiáveis. Se um agente segue de forma gulosa a direção aparentemente melhor no momento, pode continuar estendendo uma continuação fraca. Se explora sem disciplina, pode desperdiçar o orçamento em tentativas desconexas. Propomos o TreeSeeker, uma estrutura de tempo de inferência para tentativa e erro controlada em pesquisa profunda. O TreeSeeker organiza a pesquisa como uma busca com ramificação e retorno sobre estados estruturados em árvore, onde cada ramo representa uma direção provisória para um subobjetivo. A cada rodada, o TreeSeeker lê todas as árvores de subobjetivos, identifica objetivos ativos e usa sinais textuais UCB de valor, incerteza e risco para selecionar entre explorar um ramo promissor, explorar uma alternativa incerta ou podar uma continuação improdutiva e retornar a um ponto de ramificação anterior. O TreeMem apoia esse loop de controle ao manter evidências, incerteza, conflitos, progresso e indícios de falha vinculados aos ramos que os produziram, de modo que os resultados das tentativas possam orientar decisões posteriores. Experimentos no XBench-DeepSearch, BrowseComp e BrowseComp-ZH mostram que o TreeSeeker supera consistentemente linhas de base robustas de código aberto, sugerindo que o controle explícito de ramificação e retorno complementa um raciocínio e execução de ferramentas mais fortes.

English

Deep search requires agents to answer complex questions through multi-step web search, browsing, evidence comparison, and synthesis. A central challenge is deciding how to search when several directions look plausible but only some will later lead to reliable evidence. If an agent greedily follows the current best-looking direction, it may keep extending a weak continuation. If it explores without discipline, it may waste budget on disconnected trials. We propose TreeSeeker, an inference-time framework for controlled trial-and-error in deep search. TreeSeeker organizes search as branch-and-return search over tree-structured states, where each branch is a tentative direction for a sub-goal. At each round, TreeSearch reads all sub-goal trees, identifies active goals, and uses textual UCB signals of value, uncertainty, and risk to select among exploiting a promising branch, exploring an uncertain alternative, or pruning an unproductive continuation and returning to an earlier branch point. TreeMem supports this control loop by keeping evidence, uncertainty, conflicts, progress, and failure cues attached to the branches that produced them, so trial outcomes can guide later decisions. Experiments on XBench-DeepSearch, BrowseComp, and BrowseComp-ZH show that TreeSeeker consistently outperforms strong open-source baselines, suggesting that explicit branch-and-return control complements stronger reasoning and tool execution.