Fathom-DeepResearch : Débloquer la récupération et la synthèse d'informations à long horizon pour les modèles de langage de petite taille (SLMs)
Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs
September 28, 2025
papers.authors: Shreyas Singh, Kunal Singh, Pradeep Moturi
cs.AI
papers.abstract
Le raisonnement intégré aux outils est devenu un axe clé pour permettre des applications agentiques. Parmi celles-ci, les agents DeepResearch ont suscité une attention significative pour leurs performances élevées sur des tâches complexes et ouvertes de recherche d’informations. Nous présentons Fathom-DeepResearch, un système agentique composé de deux modèles spécialisés. Le premier est Fathom-Search-4B, un modèle DeepSearch entraîné à partir de Qwen3-4B et optimisé pour des investigations fondées sur des preuves via la recherche web en temps réel et l’interrogation ciblée de pages web. Son entraînement combine trois avancées : (i) DUETQA, un ensemble de données de 5 000 échantillons généré via un jeu multi-agent qui impose une dépendance stricte à la recherche web et un ancrage hétérogène des sources ; (ii) RAPO, une extension sans surcharge de GRPO qui stabilise l’apprentissage par renforcement multi-tours avec des récompenses vérifiables grâce à l’élagage curriculaire, la mise à l’échelle des avantages basée sur les récompenses et des tampons de relecture par prompt ; et (iii) une récompense modulable au niveau des étapes qui classe chaque appel d’outil par comportement cognitif et utilité marginale, permettant un contrôle explicite sur la largeur, la profondeur et l’horizon de la trajectoire de recherche. Ces améliorations permettent une extension fiable des appels d’outils au-delà de 20 appels lorsque cela est justifié. Le second est Fathom-Synthesizer-4B, entraîné à partir de Qwen3-4B, qui convertit les traces multi-tours de DeepSearch en rapports DeepResearch structurés et riches en citations pour une synthèse exhaustive. Évalué sur des benchmarks DeepSearch (SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) et DeepResearch-Bench, le système atteint des performances de pointe dans la catégorie des modèles à poids ouverts tout en démontrant une forte généralisation à des tâches de raisonnement variées, notamment HLE, AIME-25, GPQA-Diamond et MedQA.
English
Tool-integrated reasoning has emerged as a key focus for enabling agentic
applications. Among these, DeepResearch Agents have gained significant
attention for their strong performance on complex, open-ended
information-seeking tasks. We introduce Fathom-DeepResearch, an agentic system
composed of two specialized models. The first is Fathom-Search-4B, a DeepSearch
model trained from Qwen3-4B and optimized for evidence-based investigation
through live web search and targeted webpage querying. Its training combines
three advances: (i) DUETQA, a 5K-sample dataset generated via multi-agent
self-play that enforces strict web-search dependence and heterogeneous source
grounding; (ii) RAPO, a zero-overhead extension of GRPO that stabilizes
multi-turn Reinforcement Learning with Verifiable Rewards through curriculum
pruning, reward-aware advantage scaling, and per-prompt replay buffers; and
(iii) a steerable step-level reward that classifies each tool call by cognitive
behavior and marginal utility, enabling explicit control over search trajectory
breadth, depth, and horizon. These improvements enable reliable extension of
tool-calling beyond 20 calls when warranted. The second is
Fathom-Synthesizer-4B, trained from Qwen3-4B, which converts multi-turn
DeepSearch traces into structured, citation-dense DeepResearch Reports for
comprehensive synthesis. Evaluated on DeepSearch benchmarks (SimpleQA, FRAMES,
WebWalker, Seal0, MuSiQue) and DeepResearch-Bench, the system achieves
state-of-the-art performance in the open-weights category while demonstrating
strong generalization to diverse reasoning tasks including HLE, AIME-25,
GPQA-Diamond, and MedQA.