OpenResearcher: Um Pipeline Totalmente Aberto para Síntese de Trajetórias de Pesquisa Profunda de Longo Horizonte

Resumo

O treinamento de agentes de pesquisa profunda requer trajetórias de longo horizonte que intercalam busca, agregação de evidências e raciocínio multi-etapas. No entanto, os pipelines de coleta de dados existentes geralmente dependem de APIs web proprietárias, tornando a síntese de trajetórias em larga escala dispendiosa, instável e de difícil reprodução. Apresentamos o OpenResearcher, um pipeline reproduzível que desacopla o *bootstrapping* único do corpus da síntese de trajetórias multi-turn e executa o ciclo de busca e navegação inteiramente offline usando três primitivas explícitas do navegador: pesquisar, abrir e encontrar, sobre um *corpus* de 15 milhões de documentos. Usando o GPT-OSS-120B como modelo professor, sintetizamos mais de 97 mil trajetórias, incluindo uma cauda substancial de longo horizonte com mais de 100 chamadas de ferramentas. O ajuste fino supervisionado de um modelo *backbone* 30B-A3B nessas trajetórias atinge 54,8% de precisão no BrowseComp-Plus, uma melhoria de +34,0 pontos em relação ao modelo base, mantendo-se competitivo no BrowseComp, GAIA e xbench-DeepSearch. Como o ambiente é offline e totalmente instrumentado, ele também permite análises controladas, onde nosso estudo revela *insights* práticos para o projeto de *pipelines* de pesquisa profunda, incluindo estratégias de filtragem de dados, escolhas de configuração do agente e como o sucesso da recuperação se relaciona com a precisão da resposta final. Disponibilizamos o *pipeline*, as trajetórias sintetizadas, os *checkpoints* do modelo e o ambiente de busca offline em https://github.com/TIGER-AI-Lab/OpenResearcher.

English

Training deep research agents requires long-horizon trajectories that interleave search, evidence aggregation, and multi-step reasoning. However, existing data collection pipelines typically rely on proprietary web APIs, making large-scale trajectory synthesis costly, unstable, and difficult to reproduce. We present OpenResearcher, a reproducible pipeline that decouples one-time corpus bootstrapping from multi-turn trajectory synthesis and executes the search-and-browse loop entirely offline using three explicit browser primitives: search, open, and find, over a 15M-document corpus. Using GPT-OSS-120B as the teacher model, we synthesize over 97K trajectories, including a substantial long-horizon tail with 100+ tool calls. Supervised fine-tuning a 30B-A3B backbone on these trajectories achieves 54.8\% accuracy on BrowseComp-Plus, a +34.0 point improvement over the base model, while remaining competitive on BrowseComp, GAIA, and xbench-DeepSearch. Because the environment is offline and fully instrumented, it also enables controlled analysis, where our study reveals practical insights into deep research pipeline design, including data filtering strategies, agent configuration choices, and how retrieval success relates to final answer accuracy. We release the pipeline, synthesized trajectories, model checkpoints, and the offline search environment at https://github.com/TIGER-AI-Lab/OpenResearcher.