FS-Researcher : Mise à l'échelle en temps de test pour les tâches de recherche à long horizon avec des agents basés sur le système de fichiers
FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents
February 2, 2026
papers.authors: Chiwei Zhu, Benfeng Xu, Mingxuan Du, Shaohan Wang, Xiaorui Wang, Zhendong Mao, Yongdong Zhang
cs.AI
papers.abstract
La recherche approfondie émerge comme une tâche représentative à long horizon pour les agents de grands modèles de langage (LLM). Cependant, les trajectoires longues dans la recherche approfondie dépassent souvent les limites du contexte des modèles, comprimant le budget de tokens alloué à la collecte de preuves et à la rédaction du rapport, et empêchant une mise à l'échelle efficace au moment du test. Nous présentons FS-Researcher, un cadre à double agents basé sur un système de fichiers, qui permet de mettre à l'échelle la recherche approfondie au-delà de la fenêtre de contexte via un espace de travail persistant. Concrètement, un agent « Constructeur de Contexte » agit comme un bibliothécaire qui navigue sur Internet, rédige des notes structurées et archive les sources brutes dans une base de connaissances hiérarchique pouvant s'étendre bien au-delà de la longueur du contexte. Un agent « Rédacteur de Rapport » compose ensuite le rapport final section par section, en traitant la base de connaissances comme source de faits. Dans ce cadre, le système de fichiers sert de mémoire externe durable et de médium de coordination partagé entre les agents et les sessions, permettant un affinage itératif au-delà de la fenêtre de contexte. Les expériences sur deux benchmarks ouverts (DeepResearch Bench et DeepConsult) montrent que FS-Researcher atteint une qualité de rapport de pointe sur différents modèles de base. Des analyses plus poussées démontrent une corrélation positive entre la qualité du rapport final et le calcul alloué au Constructeur de Contexte, validant ainsi une mise à l'échelle efficace au moment du test sous le paradigme du système de fichiers. Le code et les données sont open-source de manière anonyme à l'adresse https://github.com/Ignoramus0817/FS-Researcher.
English
Deep research is emerging as a representative long-horizon task for large language model (LLM) agents. However, long trajectories in deep research often exceed model context limits, compressing token budgets for both evidence collection and report writing, and preventing effective test-time scaling. We introduce FS-Researcher, a file-system-based, dual-agent framework that scales deep research beyond the context window via a persistent workspace. Specifically, a Context Builder agent acts as a librarian which browses the internet, writes structured notes, and archives raw sources into a hierarchical knowledge base that can grow far beyond context length. A Report Writer agent then composes the final report section by section, treating the knowledge base as the source of facts. In this framework, the file system serves as a durable external memory and a shared coordination medium across agents and sessions, enabling iterative refinement beyond the context window. Experiments on two open-ended benchmarks (DeepResearch Bench and DeepConsult) show that FS-Researcher achieves state-of-the-art report quality across different backbone models. Further analyses demonstrate a positive correlation between final report quality and the computation allocated to the Context Builder, validating effective test-time scaling under the file-system paradigm. The code and data are anonymously open-sourced at https://github.com/Ignoramus0817/FS-Researcher.