Fathom-DeepResearch: Desbloqueando a Recuperação e Síntese de Informações de Longo Horizonte para Modelos de Linguagem de Pequena Escala (SLMs)
Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs
September 28, 2025
Autores: Shreyas Singh, Kunal Singh, Pradeep Moturi
cs.AI
Resumo
O raciocínio integrado a ferramentas emergiu como um foco-chave para habilitar aplicações agentivas. Entre essas, os Agentes DeepResearch ganharam atenção significativa por seu forte desempenho em tarefas complexas e de busca de informação de natureza aberta. Apresentamos o Fathom-DeepResearch, um sistema agentivo composto por dois modelos especializados. O primeiro é o Fathom-Search-4B, um modelo DeepSearch treinado a partir do Qwen3-4B e otimizado para investigação baseada em evidências por meio de buscas na web em tempo real e consultas direcionadas a páginas da web. Seu treinamento combina três avanços: (i) DUETQA, um conjunto de dados de 5K amostras gerado via autojogo multiagente que impõe dependência estrita de busca na web e fundamentação em fontes heterogêneas; (ii) RAPO, uma extensão de custo zero do GRPO que estabiliza o Aprendizado por Reforço multi-turno com Recompensas Verificáveis por meio de poda curricular, escalonamento de vantagem consciente de recompensa e buffers de repetição por prompt; e (iii) uma recompensa escalonável no nível de etapa que classifica cada chamada de ferramenta por comportamento cognitivo e utilidade marginal, permitindo controle explícito sobre a amplitude, profundidade e horizonte da trajetória de busca. Essas melhorias permitem a extensão confiável de chamadas de ferramentas além de 20 chamadas quando justificado. O segundo é o Fathom-Synthesizer-4B, treinado a partir do Qwen3-4B, que converte rastreios multi-turno do DeepSearch em Relatórios DeepResearch estruturados e densos em citações para síntese abrangente. Avaliado em benchmarks de DeepSearch (SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) e DeepResearch-Bench, o sistema alcança desempenho de ponta na categoria de pesos abertos, demonstrando forte generalização para diversas tarefas de raciocínio, incluindo HLE, AIME-25, GPQA-Diamond e MedQA.
English
Tool-integrated reasoning has emerged as a key focus for enabling agentic
applications. Among these, DeepResearch Agents have gained significant
attention for their strong performance on complex, open-ended
information-seeking tasks. We introduce Fathom-DeepResearch, an agentic system
composed of two specialized models. The first is Fathom-Search-4B, a DeepSearch
model trained from Qwen3-4B and optimized for evidence-based investigation
through live web search and targeted webpage querying. Its training combines
three advances: (i) DUETQA, a 5K-sample dataset generated via multi-agent
self-play that enforces strict web-search dependence and heterogeneous source
grounding; (ii) RAPO, a zero-overhead extension of GRPO that stabilizes
multi-turn Reinforcement Learning with Verifiable Rewards through curriculum
pruning, reward-aware advantage scaling, and per-prompt replay buffers; and
(iii) a steerable step-level reward that classifies each tool call by cognitive
behavior and marginal utility, enabling explicit control over search trajectory
breadth, depth, and horizon. These improvements enable reliable extension of
tool-calling beyond 20 calls when warranted. The second is
Fathom-Synthesizer-4B, trained from Qwen3-4B, which converts multi-turn
DeepSearch traces into structured, citation-dense DeepResearch Reports for
comprehensive synthesis. Evaluated on DeepSearch benchmarks (SimpleQA, FRAMES,
WebWalker, Seal0, MuSiQue) and DeepResearch-Bench, the system achieves
state-of-the-art performance in the open-weights category while demonstrating
strong generalization to diverse reasoning tasks including HLE, AIME-25,
GPQA-Diamond, and MedQA.