Fathom-DeepResearch: Het ontsluiten van informatieverwerking en -synthese op lange termijn voor SLM's
Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs
September 28, 2025
Auteurs: Shreyas Singh, Kunal Singh, Pradeep Moturi
cs.AI
Samenvatting
Tool-geïntegreerd redeneren is naar voren gekomen als een belangrijk aandachtspunt voor het mogelijk maken van agent-gebaseerde toepassingen. Onder deze hebben DeepResearch Agents aanzienlijke aandacht gekregen vanwege hun sterke prestaties op complexe, open-einde informatiezoektaken. Wij introduceren Fathom-DeepResearch, een agent-gebaseerd systeem dat bestaat uit twee gespecialiseerde modellen. Het eerste is Fathom-Search-4B, een DeepSearch-model getraind vanuit Qwen3-4B en geoptimaliseerd voor op bewijs gebaseerd onderzoek via live webzoekopdrachten en gerichte webpagina-query's. De training combineert drie verbeteringen: (i) DUETQA, een dataset van 5K voorbeelden gegenereerd via multi-agent zelfspel die strikte afhankelijkheid van webzoekopdrachten en heterogene bronverankering afdwingt; (ii) RAPO, een zero-overhead uitbreiding van GRPO die multi-turn Reinforcement Learning met Verifieerbare Beloningen stabiliseert door curriculum pruning, beloningsbewuste voordeelschaling en per-prompt replay buffers; en (iii) een stuurbaar stapniveau-beloning die elke toolaanroep classificeert op cognitief gedrag en marginaal nut, wat expliciete controle mogelijk maakt over de breedte, diepte en horizon van de zoektrajecten. Deze verbeteringen maken een betrouwbare uitbreiding van tool-aanroepen mogelijk tot meer dan 20 aanroepen wanneer nodig. Het tweede is Fathom-Synthesizer-4B, getraind vanuit Qwen3-4B, dat multi-turn DeepSearch-sporen omzet in gestructureerde, citatie-dichte DeepResearch-rapporten voor uitgebreide synthese. Geëvalueerd op DeepSearch-benchmarks (SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) en DeepResearch-Bench, behaalt het systeem state-of-the-art prestaties in de open-gewichten categorie terwijl het sterke generalisatie toont naar diverse redeneertaken, waaronder HLE, AIME-25, GPQA-Diamond en MedQA.
English
Tool-integrated reasoning has emerged as a key focus for enabling agentic
applications. Among these, DeepResearch Agents have gained significant
attention for their strong performance on complex, open-ended
information-seeking tasks. We introduce Fathom-DeepResearch, an agentic system
composed of two specialized models. The first is Fathom-Search-4B, a DeepSearch
model trained from Qwen3-4B and optimized for evidence-based investigation
through live web search and targeted webpage querying. Its training combines
three advances: (i) DUETQA, a 5K-sample dataset generated via multi-agent
self-play that enforces strict web-search dependence and heterogeneous source
grounding; (ii) RAPO, a zero-overhead extension of GRPO that stabilizes
multi-turn Reinforcement Learning with Verifiable Rewards through curriculum
pruning, reward-aware advantage scaling, and per-prompt replay buffers; and
(iii) a steerable step-level reward that classifies each tool call by cognitive
behavior and marginal utility, enabling explicit control over search trajectory
breadth, depth, and horizon. These improvements enable reliable extension of
tool-calling beyond 20 calls when warranted. The second is
Fathom-Synthesizer-4B, trained from Qwen3-4B, which converts multi-turn
DeepSearch traces into structured, citation-dense DeepResearch Reports for
comprehensive synthesis. Evaluated on DeepSearch benchmarks (SimpleQA, FRAMES,
WebWalker, Seal0, MuSiQue) and DeepResearch-Bench, the system achieves
state-of-the-art performance in the open-weights category while demonstrating
strong generalization to diverse reasoning tasks including HLE, AIME-25,
GPQA-Diamond, and MedQA.