Fathom-DeepResearch: Sbloccare il Recupero e la Sintesi di Informazioni a Lungo Termine per i Modelli Linguistici di Piccole Dimensioni
Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs
September 28, 2025
Autori: Shreyas Singh, Kunal Singh, Pradeep Moturi
cs.AI
Abstract
Il ragionamento integrato con strumenti è emerso come un focus chiave per abilitare applicazioni agentiche. Tra queste, i DeepResearch Agent hanno attirato una significativa attenzione per le loro prestazioni elevate in compiti complessi e aperti di ricerca di informazioni. Presentiamo Fathom-DeepResearch, un sistema agentico composto da due modelli specializzati. Il primo è Fathom-Search-4B, un modello DeepSearch addestrato a partire da Qwen3-4B e ottimizzato per indagini basate su evidenze attraverso ricerche web in tempo reale e interrogazioni mirate di pagine web. Il suo addestramento combina tre progressi: (i) DUETQA, un dataset di 5K campioni generato tramite auto-gioco multi-agente che impone una stretta dipendenza dalla ricerca web e un ancoraggio eterogeneo alle fonti; (ii) RAPO, un'estensione a costo zero di GRPO che stabilizza l'apprendimento per rinforzo multi-turn con ricompense verificabili attraverso potatura curriculare, scalatura dei vantaggi basata sulle ricompense e buffer di replay per prompt; e (iii) una ricompensa a livello di passo orientabile che classifica ogni chiamata di strumento in base al comportamento cognitivo e all'utilità marginale, consentendo un controllo esplicito sull'ampiezza, profondità e orizzonte della traiettoria di ricerca. Questi miglioramenti consentono un'estensione affidabile delle chiamate di strumenti oltre le 20 chiamate quando necessario. Il secondo è Fathom-Synthesizer-4B, addestrato a partire da Qwen3-4B, che converte tracce multi-turn di DeepSearch in rapporti strutturati e densi di citazioni per una sintesi completa. Valutato su benchmark di DeepSearch (SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) e DeepResearch-Bench, il sistema raggiunge prestazioni all'avanguardia nella categoria open-weights, dimostrando una forte generalizzazione su compiti di ragionamento diversificati, tra cui HLE, AIME-25, GPQA-Diamond e MedQA.
English
Tool-integrated reasoning has emerged as a key focus for enabling agentic
applications. Among these, DeepResearch Agents have gained significant
attention for their strong performance on complex, open-ended
information-seeking tasks. We introduce Fathom-DeepResearch, an agentic system
composed of two specialized models. The first is Fathom-Search-4B, a DeepSearch
model trained from Qwen3-4B and optimized for evidence-based investigation
through live web search and targeted webpage querying. Its training combines
three advances: (i) DUETQA, a 5K-sample dataset generated via multi-agent
self-play that enforces strict web-search dependence and heterogeneous source
grounding; (ii) RAPO, a zero-overhead extension of GRPO that stabilizes
multi-turn Reinforcement Learning with Verifiable Rewards through curriculum
pruning, reward-aware advantage scaling, and per-prompt replay buffers; and
(iii) a steerable step-level reward that classifies each tool call by cognitive
behavior and marginal utility, enabling explicit control over search trajectory
breadth, depth, and horizon. These improvements enable reliable extension of
tool-calling beyond 20 calls when warranted. The second is
Fathom-Synthesizer-4B, trained from Qwen3-4B, which converts multi-turn
DeepSearch traces into structured, citation-dense DeepResearch Reports for
comprehensive synthesis. Evaluated on DeepSearch benchmarks (SimpleQA, FRAMES,
WebWalker, Seal0, MuSiQue) and DeepResearch-Bench, the system achieves
state-of-the-art performance in the open-weights category while demonstrating
strong generalization to diverse reasoning tasks including HLE, AIME-25,
GPQA-Diamond, and MedQA.