FS-Researcher: Escalonamento em Tempo de Teste para Tarefas de Pesquisa de Longo Horizonte com Agentes Baseados em Sistema de Arquivos

Resumo

A pesquisa aprofundada está emergindo como uma tarefa representativa de longo horizonte para agentes de modelos de linguagem grandes (LLMs). No entanto, trajetórias longas em pesquisas profundas frequentemente excedem os limites de contexto do modelo, comprimindo o orçamento de tokens tanto para a coleta de evidências quanto para a redação do relatório, e impedindo um escalonamento eficaz em tempo de teste. Apresentamos o FS-Researcher, uma estrutura de agente duplo baseada em sistema de arquivos que escala a pesquisa profunda além da janela de contexto por meio de um espaço de trabalho persistente. Especificamente, um agente Construtor de Contexto atua como um bibliotecário que navega na internet, escreve notas estruturadas e arquiva fontes brutas em uma base de conhecimento hierárquica que pode crescer muito além do comprimento do contexto. Um agente Redator de Relatório então compõe o relatório final seção por seção, tratando a base de conhecimento como a fonte de fatos. Nesta estrutura, o sistema de arquivos serve como uma memória externa durável e um meio de coordenação compartilhado entre agentes e sessões, permitindo um refinamento iterativo além da janela de contexto. Experimentos em dois benchmarks de resposta aberta (DeepResearch Bench e DeepConsult) mostram que o FS-Researcher alcança a qualidade de relatório state-of-the-art em diferentes modelos de base. Análises adicionais demonstram uma correlação positiva entre a qualidade final do relatório e a computação alocada para o Construtor de Contexto, validando um escalonamento eficaz em tempo de teste sob o paradigma do sistema de arquivos. O código e os dados são disponibilizados anonimamente em https://github.com/Ignoramus0817/FS-Researcher.

English

Deep research is emerging as a representative long-horizon task for large language model (LLM) agents. However, long trajectories in deep research often exceed model context limits, compressing token budgets for both evidence collection and report writing, and preventing effective test-time scaling. We introduce FS-Researcher, a file-system-based, dual-agent framework that scales deep research beyond the context window via a persistent workspace. Specifically, a Context Builder agent acts as a librarian which browses the internet, writes structured notes, and archives raw sources into a hierarchical knowledge base that can grow far beyond context length. A Report Writer agent then composes the final report section by section, treating the knowledge base as the source of facts. In this framework, the file system serves as a durable external memory and a shared coordination medium across agents and sessions, enabling iterative refinement beyond the context window. Experiments on two open-ended benchmarks (DeepResearch Bench and DeepConsult) show that FS-Researcher achieves state-of-the-art report quality across different backbone models. Further analyses demonstrate a positive correlation between final report quality and the computation allocated to the Context Builder, validating effective test-time scaling under the file-system paradigm. The code and data are anonymously open-sourced at https://github.com/Ignoramus0817/FS-Researcher.