ChatPaper.aiChatPaper

FS-Researcher: Escalado en Tiempo de Prueba para Tareas de Investigación de Largo Horizonte con Agentes Basados en Sistema de Archivos

FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents

February 2, 2026
Autores: Chiwei Zhu, Benfeng Xu, Mingxuan Du, Shaohan Wang, Xiaorui Wang, Zhendong Mao, Yongdong Zhang
cs.AI

Resumen

La investigación profunda está surgiendo como una tarea representativa de horizonte largo para agentes de modelos de lenguaje grande (LLM). Sin embargo, las trayectorias largas en la investigación profunda a menudo exceden los límites de contexto del modelo, comprimiendo el presupuesto de tokens tanto para la recolección de evidencia como para la redacción de informes, e impidiendo un escalado efectivo en tiempo de prueba. Presentamos FS-Researcher, un marco de doble agente basado en sistema de archivos que escala la investigación profunda más allá de la ventana de contexto mediante un espacio de trabajo persistente. Específicamente, un agente Constructor de Contexto actúa como un bibliotecario que navega por internet, escribe notas estructuradas y archiva fuentes primarias en una base de conocimiento jerárquica que puede crecer mucho más allá de la longitud del contexto. Un agente Redactor de Informes luego compone el informe final sección por sección, tratando la base de conocimiento como la fuente de hechos. En este marco, el sistema de archivos sirve como una memoria externa duradera y un medio de coordinación compartido entre agentes y sesiones, permitiendo un refinamiento iterativo más allá de la ventana de contexto. Los experimentos en dos benchmarks de respuesta abierta (DeepResearch Bench y DeepConsult) muestran que FS-Researcher logra una calidad de informe state-of-the-art en diferentes modelos base. Análisis adicionales demuestran una correlación positiva entre la calidad del informe final y la computación asignada al Constructor de Contexto, validando un escalado efectivo en tiempo de prueba bajo el paradigma del sistema de archivos. El código y los datos se han publicado de forma anónima en https://github.com/Ignoramus0817/FS-Researcher.
English
Deep research is emerging as a representative long-horizon task for large language model (LLM) agents. However, long trajectories in deep research often exceed model context limits, compressing token budgets for both evidence collection and report writing, and preventing effective test-time scaling. We introduce FS-Researcher, a file-system-based, dual-agent framework that scales deep research beyond the context window via a persistent workspace. Specifically, a Context Builder agent acts as a librarian which browses the internet, writes structured notes, and archives raw sources into a hierarchical knowledge base that can grow far beyond context length. A Report Writer agent then composes the final report section by section, treating the knowledge base as the source of facts. In this framework, the file system serves as a durable external memory and a shared coordination medium across agents and sessions, enabling iterative refinement beyond the context window. Experiments on two open-ended benchmarks (DeepResearch Bench and DeepConsult) show that FS-Researcher achieves state-of-the-art report quality across different backbone models. Further analyses demonstrate a positive correlation between final report quality and the computation allocated to the Context Builder, validating effective test-time scaling under the file-system paradigm. The code and data are anonymously open-sourced at https://github.com/Ignoramus0817/FS-Researcher.
PDF432February 4, 2026