TreeSeeker: Prueba, Error y Retorno Estructurados en Árbol en Búsqueda Profunda

Resumen

La búsqueda profunda requiere que los agentes respondan preguntas complejas mediante búsqueda web en múltiples pasos, navegación, comparación de evidencia y síntesis. Un desafío central es decidir cómo buscar cuando varias direcciones parecen plausibles pero solo algunas llevarán posteriormente a evidencia confiable. Si un agente sigue de manera codiciosa la dirección que parece mejor en ese momento, puede continuar extendiendo una continuación débil. Si explora sin disciplina, puede desperdiciar el presupuesto en pruebas inconexas. Proponemos TreeSeeker, un marco de trabajo en tiempo de inferencia para prueba y error controlada en búsqueda profunda. TreeSeeker organiza la búsqueda como una búsqueda de ramificación y retorno sobre estados estructurados en árbol, donde cada rama es una dirección tentativa para un subobjetivo. En cada ronda, TreeSearch lee todos los árboles de subobjetivos, identifica objetivos activos y utiliza señales textuales UCB de valor, incertidumbre y riesgo para seleccionar entre explotar una rama prometedora, explorar una alternativa incierta, o podar una continuación improductiva y regresar a un punto de ramificación anterior. TreeMem respalda este bucle de control al mantener evidencia, incertidumbre, conflictos, progreso e indicadores de fallo adjuntos a las ramas que los produjeron, de modo que los resultados de las pruebas puedan guiar decisiones posteriores. Los experimentos en XBench-DeepSearch, BrowseComp y BrowseComp-ZH muestran que TreeSeeker supera consistentemente a sólidas líneas base de código abierto, lo que sugiere que el control explícito de ramificación y retorno complementa un razonamiento y ejecución de herramientas más sólidos.

English

Deep search requires agents to answer complex questions through multi-step web search, browsing, evidence comparison, and synthesis. A central challenge is deciding how to search when several directions look plausible but only some will later lead to reliable evidence. If an agent greedily follows the current best-looking direction, it may keep extending a weak continuation. If it explores without discipline, it may waste budget on disconnected trials. We propose TreeSeeker, an inference-time framework for controlled trial-and-error in deep search. TreeSeeker organizes search as branch-and-return search over tree-structured states, where each branch is a tentative direction for a sub-goal. At each round, TreeSearch reads all sub-goal trees, identifies active goals, and uses textual UCB signals of value, uncertainty, and risk to select among exploiting a promising branch, exploring an uncertain alternative, or pruning an unproductive continuation and returning to an earlier branch point. TreeMem supports this control loop by keeping evidence, uncertainty, conflicts, progress, and failure cues attached to the branches that produced them, so trial outcomes can guide later decisions. Experiments on XBench-DeepSearch, BrowseComp, and BrowseComp-ZH show that TreeSeeker consistently outperforms strong open-source baselines, suggesting that explicit branch-and-return control complements stronger reasoning and tool execution.