QUEST: Treinando Agentes de Pesquisa Profunda de Fronteira com Tarefas Totalmente Sintéticas

Resumo

Agentes de pesquisa profunda estendem o papel dos motores de busca, desde a recuperação de páginas correspondentes a palavras-chave até a síntese de conhecimento, mudando fundamentalmente como os humanos interagem com a informação. No entanto, os sistemas de fronteira permanecem proprietários, enquanto os agentes abertos existentes frequentemente generalizam mal entre diferentes tipos de tarefa, deixando incerto como treinar um agente de pesquisa profunda amplamente capaz. Lançamos o QUEST, uma família de modelos abertos (variando de 2B a 35B) que servem como agentes de pesquisa profunda de propósito geral, projetados para lidar com uma ampla gama de tarefas de busca de longo horizonte, com fortes capacidades em busca de fatos, fundamentação de citações e síntese de relatórios. Para construir o QUEST, propomos uma receita de treinamento eficaz que combina treinamento intermediário, ajuste fino supervisionado e aprendizado por reforço. Central para esta receita é um pipeline de síntese de dados curados baseado em árvores de rubrica unificadas, que se aplica a diferentes tipos de tarefa e permite sintetizar dados de treinamento com recompensas verificáveis sem anotação humana. Além disso, o QUEST incorpora um mecanismo de gerenciamento de contexto integrado que possibilita raciocínio de longo horizonte e síntese de conhecimento eficazes. Usando apenas 8 mil tarefas sintetizadas, o QUEST se aproxima ou até supera agentes de fronteira de código fechado em oito benchmarks de pesquisa profunda que abrangem diversos tipos de tarefa, e alcança o melhor desempenho geral entre agentes de peso aberto recentes. Disponibilizamos tudo: modelos, dados e scripts de treinamento.

English

Deep research agents extend the role of search engines from retrieving keyword-matched pages to synthesizing knowledge, fundamentally changing how humans interact with information. However, frontier systems remain proprietary, while existing open agents often generalize poorly across different task types, leaving unclear how to train a broadly capable deep research agent. We release QUEST, a family of open models (ranging from 2B to 35B) that serve as general-purpose deep research agents designed to handle a wide range of long-horizon search tasks, with strong capabilities in fact seeking, citation grounding, and report synthesis. To build QUEST, we propose an effective training recipe combining mid-training, supervised fine-tuning, and reinforcement learning. Central to this recipe is a curated data synthesis pipeline based on unified rubric trees, which applies to different task types and enables synthesizing training data with verifiable rewards without human annotation. In addition, QUEST incorporates a built-in context management mechanism that enables effective long-horizon reasoning and knowledge synthesis. Using only 8K synthesized tasks, QUEST approaches or even surpasses frontier closed-source agents across eight deep research benchmarks spanning diverse task types, and achieves the best overall performance among recent open-weight agents. We released everything: models, data, and training scripts.