Fathom-DeepResearch: Desbloqueando la Recuperación y Síntesis de Información a Largo Plazo para Modelos de Lenguaje Pequeños (SLMs)
Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs
September 28, 2025
Autores: Shreyas Singh, Kunal Singh, Pradeep Moturi
cs.AI
Resumen
El razonamiento integrado con herramientas ha surgido como un enfoque clave para habilitar aplicaciones agentivas. Entre estas, los Agentes DeepResearch han ganado una atención significativa por su fuerte desempeño en tareas complejas y abiertas de búsqueda de información. Presentamos Fathom-DeepResearch, un sistema agentivo compuesto por dos modelos especializados. El primero es Fathom-Search-4B, un modelo DeepSearch entrenado a partir de Qwen3-4B y optimizado para investigaciones basadas en evidencia mediante búsquedas web en vivo y consultas específicas en páginas web. Su entrenamiento combina tres avances: (i) DUETQA, un conjunto de datos de 5K muestras generado mediante autojuego multiagente que impone una dependencia estricta de búsqueda web y un anclaje heterogéneo de fuentes; (ii) RAPO, una extensión de GRPO sin sobrecarga que estabiliza el Aprendizaje por Refuerzo multi-turno con Recompensas Verificables mediante poda curricular, escalado de ventajas consciente de recompensas y búferes de repetición por prompt; y (iii) una recompensa a nivel de paso direccionable que clasifica cada llamada a herramienta por comportamiento cognitivo y utilidad marginal, permitiendo un control explícito sobre la amplitud, profundidad y horizonte de la trayectoria de búsqueda. Estas mejoras permiten una extensión confiable de las llamadas a herramientas más allá de 20 llamadas cuando es necesario. El segundo es Fathom-Synthesizer-4B, entrenado a partir de Qwen3-4B, que convierte trazas de DeepSearch multi-turno en Informes DeepResearch estructurados y densos en citas para una síntesis exhaustiva. Evaluado en benchmarks de DeepSearch (SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) y DeepResearch-Bench, el sistema logra un rendimiento de vanguardia en la categoría de pesos abiertos mientras demuestra una fuerte generalización a diversas tareas de razonamiento, incluyendo HLE, AIME-25, GPQA-Diamond y MedQA.
English
Tool-integrated reasoning has emerged as a key focus for enabling agentic
applications. Among these, DeepResearch Agents have gained significant
attention for their strong performance on complex, open-ended
information-seeking tasks. We introduce Fathom-DeepResearch, an agentic system
composed of two specialized models. The first is Fathom-Search-4B, a DeepSearch
model trained from Qwen3-4B and optimized for evidence-based investigation
through live web search and targeted webpage querying. Its training combines
three advances: (i) DUETQA, a 5K-sample dataset generated via multi-agent
self-play that enforces strict web-search dependence and heterogeneous source
grounding; (ii) RAPO, a zero-overhead extension of GRPO that stabilizes
multi-turn Reinforcement Learning with Verifiable Rewards through curriculum
pruning, reward-aware advantage scaling, and per-prompt replay buffers; and
(iii) a steerable step-level reward that classifies each tool call by cognitive
behavior and marginal utility, enabling explicit control over search trajectory
breadth, depth, and horizon. These improvements enable reliable extension of
tool-calling beyond 20 calls when warranted. The second is
Fathom-Synthesizer-4B, trained from Qwen3-4B, which converts multi-turn
DeepSearch traces into structured, citation-dense DeepResearch Reports for
comprehensive synthesis. Evaluated on DeepSearch benchmarks (SimpleQA, FRAMES,
WebWalker, Seal0, MuSiQue) and DeepResearch-Bench, the system achieves
state-of-the-art performance in the open-weights category while demonstrating
strong generalization to diverse reasoning tasks including HLE, AIME-25,
GPQA-Diamond, and MedQA.