ChatPaper.aiChatPaper

Fathom-DeepResearch: Sbloccare il Recupero e la Sintesi di Informazioni a Lungo Termine per i Modelli Linguistici di Piccole Dimensioni

Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs

September 28, 2025
Autori: Shreyas Singh, Kunal Singh, Pradeep Moturi
cs.AI

Abstract

Il ragionamento integrato con strumenti è emerso come un focus chiave per abilitare applicazioni agentiche. Tra queste, i DeepResearch Agent hanno attirato una significativa attenzione per le loro prestazioni elevate in compiti complessi e aperti di ricerca di informazioni. Presentiamo Fathom-DeepResearch, un sistema agentico composto da due modelli specializzati. Il primo è Fathom-Search-4B, un modello DeepSearch addestrato a partire da Qwen3-4B e ottimizzato per indagini basate su evidenze attraverso ricerche web in tempo reale e interrogazioni mirate di pagine web. Il suo addestramento combina tre progressi: (i) DUETQA, un dataset di 5K campioni generato tramite auto-gioco multi-agente che impone una stretta dipendenza dalla ricerca web e un ancoraggio eterogeneo alle fonti; (ii) RAPO, un'estensione a costo zero di GRPO che stabilizza l'apprendimento per rinforzo multi-turn con ricompense verificabili attraverso potatura curriculare, scalatura dei vantaggi basata sulle ricompense e buffer di replay per prompt; e (iii) una ricompensa a livello di passo orientabile che classifica ogni chiamata di strumento in base al comportamento cognitivo e all'utilità marginale, consentendo un controllo esplicito sull'ampiezza, profondità e orizzonte della traiettoria di ricerca. Questi miglioramenti consentono un'estensione affidabile delle chiamate di strumenti oltre le 20 chiamate quando necessario. Il secondo è Fathom-Synthesizer-4B, addestrato a partire da Qwen3-4B, che converte tracce multi-turn di DeepSearch in rapporti strutturati e densi di citazioni per una sintesi completa. Valutato su benchmark di DeepSearch (SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) e DeepResearch-Bench, il sistema raggiunge prestazioni all'avanguardia nella categoria open-weights, dimostrando una forte generalizzazione su compiti di ragionamento diversificati, tra cui HLE, AIME-25, GPQA-Diamond e MedQA.
English
Tool-integrated reasoning has emerged as a key focus for enabling agentic applications. Among these, DeepResearch Agents have gained significant attention for their strong performance on complex, open-ended information-seeking tasks. We introduce Fathom-DeepResearch, an agentic system composed of two specialized models. The first is Fathom-Search-4B, a DeepSearch model trained from Qwen3-4B and optimized for evidence-based investigation through live web search and targeted webpage querying. Its training combines three advances: (i) DUETQA, a 5K-sample dataset generated via multi-agent self-play that enforces strict web-search dependence and heterogeneous source grounding; (ii) RAPO, a zero-overhead extension of GRPO that stabilizes multi-turn Reinforcement Learning with Verifiable Rewards through curriculum pruning, reward-aware advantage scaling, and per-prompt replay buffers; and (iii) a steerable step-level reward that classifies each tool call by cognitive behavior and marginal utility, enabling explicit control over search trajectory breadth, depth, and horizon. These improvements enable reliable extension of tool-calling beyond 20 calls when warranted. The second is Fathom-Synthesizer-4B, trained from Qwen3-4B, which converts multi-turn DeepSearch traces into structured, citation-dense DeepResearch Reports for comprehensive synthesis. Evaluated on DeepSearch benchmarks (SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) and DeepResearch-Bench, the system achieves state-of-the-art performance in the open-weights category while demonstrating strong generalization to diverse reasoning tasks including HLE, AIME-25, GPQA-Diamond, and MedQA.
PDF732October 8, 2025