FS-Researcher: 파일 시스템 기반 에이전트를 활용한 장기 연구 과제를 위한 테스트 타임 스케일링
FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents
February 2, 2026
저자: Chiwei Zhu, Benfeng Xu, Mingxuan Du, Shaohan Wang, Xiaorui Wang, Zhendong Mao, Yongdong Zhang
cs.AI
초록
딥 리서치는 대규모 언어 모델(LLM) 에이전트의 대표적인 장기 과제로 부상하고 있습니다. 그러나 딥 리서치의 긴 작업 궤적은 종종 모델 컨텍스트 한계를 초과하여, 증거 수집과 보고서 작성 모두에 사용 가능한 토큰 예산을 압축하고 효과적인 테스트 타임 스케일링을 방해합니다. 본 연구에서는 파일 시스템 기반의 이중 에이전트 프레임워크인 FS-Researcher를 소개합니다. 이 프레임워크는 지속적 작업 공간을 통해 컨텍스트 윈도우를 넘어 딥 리서치를 확장합니다. 구체적으로, Context Builder 에이전트는 사서 역할을 하며 인터넷을 탐색하고 구조화된 노트를 작성하며, 원본 출처를 컨텍스트 길이를 훨씬 초과하여 성장할 수 있는 계층적 지식 베이스에 저장합니다.隨後, Report Writer 에이전트는 이 지식 베이스를 사실의 원천으로 삼아 섹션별로 최종 보고서를 작성합니다. 이 프레임워크에서 파일 시스템은 내구성 있는 외부 메모리이자 에이전트와 세션을 아우르는 공유 조정 매체로 기능하여, 컨텍스트 윈도우를 넘어 반복적 정교화를 가능하게 합니다. 두 가지 개방형 벤치마크(DeepResearch Bench 및 DeepConsult)에서의 실험 결과, FS-Researcher가 서로 다른 백본 모델에서 모두 최첨단 수준의 보고서 품질을 달성함을 보여줍니다. 추가 분석은 최종 보고서 품질과 Context Builder에 할당된 계산량 사이의 정적 상관관계를 입증하여, 파일 시스템 패러다임 하에서 효과적인 테스트 타임 스케일링을 검증합니다. 코드와 데이터는 https://github.com/Ignoramus0817/FS-Researcher에서 익명으로 공개되어 있습니다.
English
Deep research is emerging as a representative long-horizon task for large language model (LLM) agents. However, long trajectories in deep research often exceed model context limits, compressing token budgets for both evidence collection and report writing, and preventing effective test-time scaling. We introduce FS-Researcher, a file-system-based, dual-agent framework that scales deep research beyond the context window via a persistent workspace. Specifically, a Context Builder agent acts as a librarian which browses the internet, writes structured notes, and archives raw sources into a hierarchical knowledge base that can grow far beyond context length. A Report Writer agent then composes the final report section by section, treating the knowledge base as the source of facts. In this framework, the file system serves as a durable external memory and a shared coordination medium across agents and sessions, enabling iterative refinement beyond the context window. Experiments on two open-ended benchmarks (DeepResearch Bench and DeepConsult) show that FS-Researcher achieves state-of-the-art report quality across different backbone models. Further analyses demonstrate a positive correlation between final report quality and the computation allocated to the Context Builder, validating effective test-time scaling under the file-system paradigm. The code and data are anonymously open-sourced at https://github.com/Ignoramus0817/FS-Researcher.