Fathom-DeepResearch: Раскрытие потенциала извлечения и синтеза информации на длинных временных горизонтах для малых языковых моделей (SLMs)

Аннотация

Интегрированное использование инструментов для рассуждений стало ключевым направлением для создания агентных приложений. Среди них DeepResearch Agents привлекли значительное внимание благодаря своей высокой производительности на сложных, открытых задачах поиска информации. Мы представляем Fathom-DeepResearch, агентную систему, состоящую из двух специализированных моделей. Первая — это Fathom-Search-4B, модель DeepSearch, обученная на основе Qwen3-4B и оптимизированная для доказательного исследования через живой поиск в интернете и целенаправленный запрос веб-страниц. Ее обучение объединяет три новшества: (i) DUETQA, набор данных из 5 тысяч примеров, сгенерированный с помощью мультиагентного самообучения, который обеспечивает строгую зависимость от веб-поиска и разнородное заземление источников; (ii) RAPO, расширение GRPO с нулевыми накладными расходами, стабилизирующее многократное обучение с подкреплением с проверяемыми наградами через учебное сокращение, масштабирование преимуществ с учетом наград и буферы воспроизведения для каждого запроса; и (iii) управляемая пошаговая награда, классифицирующая каждый вызов инструмента по когнитивному поведению и предельной полезности, что позволяет явно контролировать широту, глубину и горизонт поисковой траектории. Эти улучшения позволяют надежно расширять количество вызовов инструментов до более чем 20, когда это необходимо. Вторая модель — Fathom-Synthesizer-4B, обученная на основе Qwen3-4B, которая преобразует многократные трассы DeepSearch в структурированные, насыщенные цитатами отчеты DeepResearch для комплексного синтеза. Оцененная на бенчмарках DeepSearch (SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) и DeepResearch-Bench, система демонстрирует передовые результаты в категории открытых весов, а также сильную обобщаемость для разнообразных задач рассуждения, включая HLE, AIME-25, GPQA-Diamond и MedQA.

English

Tool-integrated reasoning has emerged as a key focus for enabling agentic applications. Among these, DeepResearch Agents have gained significant attention for their strong performance on complex, open-ended information-seeking tasks. We introduce Fathom-DeepResearch, an agentic system composed of two specialized models. The first is Fathom-Search-4B, a DeepSearch model trained from Qwen3-4B and optimized for evidence-based investigation through live web search and targeted webpage querying. Its training combines three advances: (i) DUETQA, a 5K-sample dataset generated via multi-agent self-play that enforces strict web-search dependence and heterogeneous source grounding; (ii) RAPO, a zero-overhead extension of GRPO that stabilizes multi-turn Reinforcement Learning with Verifiable Rewards through curriculum pruning, reward-aware advantage scaling, and per-prompt replay buffers; and (iii) a steerable step-level reward that classifies each tool call by cognitive behavior and marginal utility, enabling explicit control over search trajectory breadth, depth, and horizon. These improvements enable reliable extension of tool-calling beyond 20 calls when warranted. The second is Fathom-Synthesizer-4B, trained from Qwen3-4B, which converts multi-turn DeepSearch traces into structured, citation-dense DeepResearch Reports for comprehensive synthesis. Evaluated on DeepSearch benchmarks (SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) and DeepResearch-Bench, the system achieves state-of-the-art performance in the open-weights category while demonstrating strong generalization to diverse reasoning tasks including HLE, AIME-25, GPQA-Diamond, and MedQA.

Fathom-DeepResearch: Раскрытие потенциала извлечения и синтеза информации на длинных временных горизонтах для малых языковых моделей (SLMs)

Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs

Аннотация

Support