Fathom-DeepResearch: Erschließung von Langzeithorizont-Informationsabruf und -synthese für SLMs
Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs
September 28, 2025
papers.authors: Shreyas Singh, Kunal Singh, Pradeep Moturi
cs.AI
papers.abstract
Tool-integrated Reasoning hat sich als ein zentraler Schwerpunkt für die Ermöglichung agentenbasierter Anwendungen etabliert. Unter diesen haben DeepResearch Agents aufgrund ihrer starken Leistung bei komplexen, offenen Informationsbeschaffungsaufgaben erhebliche Aufmerksamkeit erlangt. Wir stellen Fathom-DeepResearch vor, ein agentenbasiertes System, das aus zwei spezialisierten Modellen besteht. Das erste ist Fathom-Search-4B, ein DeepSearch-Modell, das auf Qwen3-4B trainiert und für evidenzbasierte Untersuchungen durch Live-Websuche und gezielte Webseitenabfragen optimiert wurde. Sein Training kombiniert drei Fortschritte: (i) DUETQA, ein 5K-Beispiel-Datensatz, der durch Multi-Agenten-Selbstspiel generiert wurde und strikte Abhängigkeit von der Websuche sowie heterogene Quellengrundierung erzwingt; (ii) RAPO, eine zero-overhead-Erweiterung von GRPO, die mehrstufiges Reinforcement Learning mit verifizierbaren Belohnungen durch Curriculum-Pruning, belohnungsbewusste Vorteilsskalierung und pro-Prompt-Wiederholungspuffer stabilisiert; und (iii) eine steuerbare schrittweise Belohnung, die jeden Tool-Aufruf nach kognitivem Verhalten und marginalem Nutzen klassifiziert und explizite Kontrolle über die Breite, Tiefe und den Horizont der Suchtrajektorie ermöglicht. Diese Verbesserungen ermöglichen eine zuverlässige Erweiterung des Tool-Aufrufs über 20 Aufrufe hinaus, wenn dies gerechtfertigt ist. Das zweite Modell ist Fathom-Synthesizer-4B, das auf Qwen3-4B trainiert wurde und mehrstufige DeepSearch-Spuren in strukturierte, zitatreiche DeepResearch-Berichte für umfassende Synthese umwandelt. Bewertet anhand von DeepSearch-Benchmarks (SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) und DeepResearch-Bench erreicht das System Spitzenleistungen in der Kategorie der offenen Gewichte und zeigt gleichzeitig eine starke Generalisierung auf diverse Reasoning-Aufgaben, einschließlich HLE, AIME-25, GPQA-Diamond und MedQA.
English
Tool-integrated reasoning has emerged as a key focus for enabling agentic
applications. Among these, DeepResearch Agents have gained significant
attention for their strong performance on complex, open-ended
information-seeking tasks. We introduce Fathom-DeepResearch, an agentic system
composed of two specialized models. The first is Fathom-Search-4B, a DeepSearch
model trained from Qwen3-4B and optimized for evidence-based investigation
through live web search and targeted webpage querying. Its training combines
three advances: (i) DUETQA, a 5K-sample dataset generated via multi-agent
self-play that enforces strict web-search dependence and heterogeneous source
grounding; (ii) RAPO, a zero-overhead extension of GRPO that stabilizes
multi-turn Reinforcement Learning with Verifiable Rewards through curriculum
pruning, reward-aware advantage scaling, and per-prompt replay buffers; and
(iii) a steerable step-level reward that classifies each tool call by cognitive
behavior and marginal utility, enabling explicit control over search trajectory
breadth, depth, and horizon. These improvements enable reliable extension of
tool-calling beyond 20 calls when warranted. The second is
Fathom-Synthesizer-4B, trained from Qwen3-4B, which converts multi-turn
DeepSearch traces into structured, citation-dense DeepResearch Reports for
comprehensive synthesis. Evaluated on DeepSearch benchmarks (SimpleQA, FRAMES,
WebWalker, Seal0, MuSiQue) and DeepResearch-Bench, the system achieves
state-of-the-art performance in the open-weights category while demonstrating
strong generalization to diverse reasoning tasks including HLE, AIME-25,
GPQA-Diamond, and MedQA.