ChatPaper.aiChatPaper

Fathom-DeepResearch: 소형 언어 모델(SLMs)을 위한 장기적 정보 검색 및 합성 기술의 개척

Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs

September 28, 2025
저자: Shreyas Singh, Kunal Singh, Pradeep Moturi
cs.AI

초록

도구 통합 추론은 에이전트 기반 애플리케이션을 가능하게 하는 핵심 초점으로 부상했습니다. 이 중에서도 DeepResearch 에이전트는 복잡하고 개방형 정보 탐색 작업에서 강력한 성능을 보이며 주목받고 있습니다. 우리는 두 가지 특화된 모델로 구성된 에이전트 시스템인 Fathom-DeepResearch를 소개합니다. 첫 번째는 Fathom-Search-4B로, Qwen3-4B를 기반으로 훈련된 DeepSearch 모델로, 실시간 웹 검색 및 타겟팅된 웹페이지 쿼리를 통해 증거 기반 조사에 최적화되었습니다. 이 모델의 훈련은 세 가지 혁신을 결합합니다: (i) 다중 에이전트 자기 대결을 통해 생성된 5K 샘플 데이터셋인 DUETQA로, 엄격한 웹 검색 의존성과 이질적 소스 근거를 강제합니다; (ii) GRPO의 제로 오버헤드 확장인 RAPO로, 커리큘럼 프루닝, 보상 인식 이점 스케일링, 프롬프트별 재생 버퍼를 통해 검증 가능한 보상과 함께 다중 턴 강화 학습을 안정화합니다; (iii) 각 도구 호출을 인지 행동 및 한계 효용으로 분류하는 조정 가능한 단계별 보상으로, 검색 궤적의 폭, 깊이, 범위에 대한 명시적 제어를 가능하게 합니다. 이러한 개선 사항들은 필요한 경우 20회 이상의 도구 호출을 안정적으로 확장할 수 있게 합니다. 두 번째는 Qwen3-4B를 기반으로 훈련된 Fathom-Synthesizer-4B로, 다중 턴 DeepSearch 흔적을 구조화되고 인용이 풍부한 DeepResearch 보고서로 변환하여 포괄적인 통합을 수행합니다. DeepSearch 벤치마크(SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) 및 DeepResearch-Bench에서 평가된 이 시스템은 오픈 가중치 범주에서 최첨단 성능을 달성하며, HLE, AIME-25, GPQA-Diamond, MedQA 등 다양한 추론 작업에서 강력한 일반화 능력을 보여줍니다.
English
Tool-integrated reasoning has emerged as a key focus for enabling agentic applications. Among these, DeepResearch Agents have gained significant attention for their strong performance on complex, open-ended information-seeking tasks. We introduce Fathom-DeepResearch, an agentic system composed of two specialized models. The first is Fathom-Search-4B, a DeepSearch model trained from Qwen3-4B and optimized for evidence-based investigation through live web search and targeted webpage querying. Its training combines three advances: (i) DUETQA, a 5K-sample dataset generated via multi-agent self-play that enforces strict web-search dependence and heterogeneous source grounding; (ii) RAPO, a zero-overhead extension of GRPO that stabilizes multi-turn Reinforcement Learning with Verifiable Rewards through curriculum pruning, reward-aware advantage scaling, and per-prompt replay buffers; and (iii) a steerable step-level reward that classifies each tool call by cognitive behavior and marginal utility, enabling explicit control over search trajectory breadth, depth, and horizon. These improvements enable reliable extension of tool-calling beyond 20 calls when warranted. The second is Fathom-Synthesizer-4B, trained from Qwen3-4B, which converts multi-turn DeepSearch traces into structured, citation-dense DeepResearch Reports for comprehensive synthesis. Evaluated on DeepSearch benchmarks (SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) and DeepResearch-Bench, the system achieves state-of-the-art performance in the open-weights category while demonstrating strong generalization to diverse reasoning tasks including HLE, AIME-25, GPQA-Diamond, and MedQA.
PDF642October 8, 2025