FS-Researcher: ファイルシステムベースエージェントによる長期的研究タスクのためのテスト時スケーリング
FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents
February 2, 2026
著者: Chiwei Zhu, Benfeng Xu, Mingxuan Du, Shaohan Wang, Xiaorui Wang, Zhendong Mao, Yongdong Zhang
cs.AI
要旨
深層研究は、大規模言語モデル(LLM)エージェントにおける代表的な長期タスクとして台頭しつつある。しかし、深層研究における長い軌跡はモデルのコンテキスト制限を超えることが多く、証拠収集とレポート作成の両方に対するトークン予算を圧迫し、効果的なテスト時スケーリングを妨げている。本論文では、ファイルシステムベースのデュアルエージェントフレームワークであるFS-Researcherを提案する。これは永続的なワークスペースを介して、コンテキストウィンドウを超えた深層研究のスケーリングを実現する。具体的には、Context Builderエージェントが司書として機能し、インターネットを閲覧し構造化されたメモを作成し、生の情報源を階層的な知識ベースにアーカイブする。この知識ベースはコンテキスト長をはるかに超えて拡張可能である。その後、Report Writerエージェントが知識ベースを事実のソースとして扱い、セクションごとに最終レポートを作成する。このフレームワークでは、ファイルシステムが耐久性のある外部メモリおよびエージェント間・セッション間の共有調整媒体として機能し、コンテキストウィンドウを超えた反復的な改良を可能にする。2つのオープンエンドベンチマーク(DeepResearch BenchとDeepConsult)による実験では、FS-Researcherが異なる基盤モデルにおいて最先端のレポート品質を達成することが示された。さらに分析により、最終レポート品質とContext Builderに割り当てられた計算資源との間に正の相関が確認され、ファイルシステムパラダイム下での効果的なテスト時スケーリングが検証された。コードとデータはhttps://github.com/Ignoramus0817/FS-Researcher で匿名公開されている。
English
Deep research is emerging as a representative long-horizon task for large language model (LLM) agents. However, long trajectories in deep research often exceed model context limits, compressing token budgets for both evidence collection and report writing, and preventing effective test-time scaling. We introduce FS-Researcher, a file-system-based, dual-agent framework that scales deep research beyond the context window via a persistent workspace. Specifically, a Context Builder agent acts as a librarian which browses the internet, writes structured notes, and archives raw sources into a hierarchical knowledge base that can grow far beyond context length. A Report Writer agent then composes the final report section by section, treating the knowledge base as the source of facts. In this framework, the file system serves as a durable external memory and a shared coordination medium across agents and sessions, enabling iterative refinement beyond the context window. Experiments on two open-ended benchmarks (DeepResearch Bench and DeepConsult) show that FS-Researcher achieves state-of-the-art report quality across different backbone models. Further analyses demonstrate a positive correlation between final report quality and the computation allocated to the Context Builder, validating effective test-time scaling under the file-system paradigm. The code and data are anonymously open-sourced at https://github.com/Ignoramus0817/FS-Researcher.