TreeSeeker: древовидный метод проб, ошибок и возврата в глубинном поиске

Аннотация

Глубокий поиск требует от агентов ответов на сложные вопросы посредством многошагового поиска в веб, просмотра, сравнения свидетельств и синтеза. Ключевая задача заключается в том, как решить, в каком направлении продолжать поиск, когда несколько вариантов выглядят правдоподобно, но лишь некоторые из них впоследствии приведут к надежным свидетельствам. Если агент жадно следует за текущим наилучшим направлением, он может постоянно углублять слабое продолжение. Если же он исследует без дисциплины, он может потратить бюджет на разрозненные попытки. Мы предлагаем TreeSeeker — фреймворк времени вывода для контролируемого метода проб и ошибок при глубоком поиске. TreeSeeker организует поиск как процесс с ветвлением и возвратом по древовидным состояниям, где каждая ветвь представляет собой пробное направление для достижения подцели. На каждом раунде TreeSearch читает все деревья подцелей, идентифицирует активные цели и использует текстовые сигналы UCB (значение, неопределенность, риск) для выбора между эксплуатацией перспективной ветви, исследованием неопределенной альтернативы или отсечением непродуктивного продолжения с возвратом к более ранней точке ветвления. TreeMem поддерживает этот контур управления, сохраняя свидетельства, неопределенность, конфликты, прогресс и признаки неудачи, привязанные к ветвям, на которых они возникли, чтобы результаты проб направляли последующие решения. Эксперименты на XBench-DeepSearch, BrowseComp и BrowseComp-ZH показывают, что TreeSeeker стабильно превосходит сильные базовые решения с открытым исходным кодом, что позволяет предположить, что явное управление с ветвлением и возвратом дополняет более развитые способности к рассуждению и выполнению инструментов.

English

Deep search requires agents to answer complex questions through multi-step web search, browsing, evidence comparison, and synthesis. A central challenge is deciding how to search when several directions look plausible but only some will later lead to reliable evidence. If an agent greedily follows the current best-looking direction, it may keep extending a weak continuation. If it explores without discipline, it may waste budget on disconnected trials. We propose TreeSeeker, an inference-time framework for controlled trial-and-error in deep search. TreeSeeker organizes search as branch-and-return search over tree-structured states, where each branch is a tentative direction for a sub-goal. At each round, TreeSearch reads all sub-goal trees, identifies active goals, and uses textual UCB signals of value, uncertainty, and risk to select among exploiting a promising branch, exploring an uncertain alternative, or pruning an unproductive continuation and returning to an earlier branch point. TreeMem supports this control loop by keeping evidence, uncertainty, conflicts, progress, and failure cues attached to the branches that produced them, so trial outcomes can guide later decisions. Experiments on XBench-DeepSearch, BrowseComp, and BrowseComp-ZH show that TreeSeeker consistently outperforms strong open-source baselines, suggesting that explicit branch-and-return control complements stronger reasoning and tool execution.