Fathom-DeepResearch: Desbloqueando a Recuperação e Síntese de Informações de Longo Horizonte para Modelos de Linguagem de Pequena Escala (SLMs)

Resumo

O raciocínio integrado a ferramentas emergiu como um foco-chave para habilitar aplicações agentivas. Entre essas, os Agentes DeepResearch ganharam atenção significativa por seu forte desempenho em tarefas complexas e de busca de informação de natureza aberta. Apresentamos o Fathom-DeepResearch, um sistema agentivo composto por dois modelos especializados. O primeiro é o Fathom-Search-4B, um modelo DeepSearch treinado a partir do Qwen3-4B e otimizado para investigação baseada em evidências por meio de buscas na web em tempo real e consultas direcionadas a páginas da web. Seu treinamento combina três avanços: (i) DUETQA, um conjunto de dados de 5K amostras gerado via autojogo multiagente que impõe dependência estrita de busca na web e fundamentação em fontes heterogêneas; (ii) RAPO, uma extensão de custo zero do GRPO que estabiliza o Aprendizado por Reforço multi-turno com Recompensas Verificáveis por meio de poda curricular, escalonamento de vantagem consciente de recompensa e buffers de repetição por prompt; e (iii) uma recompensa escalonável no nível de etapa que classifica cada chamada de ferramenta por comportamento cognitivo e utilidade marginal, permitindo controle explícito sobre a amplitude, profundidade e horizonte da trajetória de busca. Essas melhorias permitem a extensão confiável de chamadas de ferramentas além de 20 chamadas quando justificado. O segundo é o Fathom-Synthesizer-4B, treinado a partir do Qwen3-4B, que converte rastreios multi-turno do DeepSearch em Relatórios DeepResearch estruturados e densos em citações para síntese abrangente. Avaliado em benchmarks de DeepSearch (SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) e DeepResearch-Bench, o sistema alcança desempenho de ponta na categoria de pesos abertos, demonstrando forte generalização para diversas tarefas de raciocínio, incluindo HLE, AIME-25, GPQA-Diamond e MedQA.

English

Tool-integrated reasoning has emerged as a key focus for enabling agentic applications. Among these, DeepResearch Agents have gained significant attention for their strong performance on complex, open-ended information-seeking tasks. We introduce Fathom-DeepResearch, an agentic system composed of two specialized models. The first is Fathom-Search-4B, a DeepSearch model trained from Qwen3-4B and optimized for evidence-based investigation through live web search and targeted webpage querying. Its training combines three advances: (i) DUETQA, a 5K-sample dataset generated via multi-agent self-play that enforces strict web-search dependence and heterogeneous source grounding; (ii) RAPO, a zero-overhead extension of GRPO that stabilizes multi-turn Reinforcement Learning with Verifiable Rewards through curriculum pruning, reward-aware advantage scaling, and per-prompt replay buffers; and (iii) a steerable step-level reward that classifies each tool call by cognitive behavior and marginal utility, enabling explicit control over search trajectory breadth, depth, and horizon. These improvements enable reliable extension of tool-calling beyond 20 calls when warranted. The second is Fathom-Synthesizer-4B, trained from Qwen3-4B, which converts multi-turn DeepSearch traces into structured, citation-dense DeepResearch Reports for comprehensive synthesis. Evaluated on DeepSearch benchmarks (SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) and DeepResearch-Bench, the system achieves state-of-the-art performance in the open-weights category while demonstrating strong generalization to diverse reasoning tasks including HLE, AIME-25, GPQA-Diamond, and MedQA.

Fathom-DeepResearch: Desbloqueando a Recuperação e Síntese de Informações de Longo Horizonte para Modelos de Linguagem de Pequena Escala (SLMs)

Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs

Resumo

Support