FS-Researcher: Test-Time Skalierung für langfristige Forschungsaufgaben mit dateisystembasierten Agenten
FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents
February 2, 2026
papers.authors: Chiwei Zhu, Benfeng Xu, Mingxuan Du, Shaohan Wang, Xiaorui Wang, Zhendong Mao, Yongdong Zhang
cs.AI
papers.abstract
Tiefenrecherche etabliert sich zunehmend als repräsentative Langzeitaufgabe für Agenten auf Basis großer Sprachmodelle (LLMs). Lange Trajektorien bei der Tiefenrecherche überschreiten jedoch häufig die Kontextlimits der Modelle, was das Token-Budget für sowohl die Evidenzsammlung als auch das Verfassen des Berichts komprimiert und eine effektive Skalierung zur Testzeit verhindert. Wir stellen FS-Researcher vor, ein dateisystembasiertes, dual-agent Framework, das Tiefenrecherche über das Kontextfenster hinaus skaliert, indem es einen persistenten Arbeitsbereich nutzt. Konkret agiert ein Context Builder-Agent als Bibliothekar, der das Internet durchsucht, strukturierte Notizen anfertigt und Rohquellen in einer hierarchischen Wissensbasis archiviert, die weit über die Kontextlänge hinauswachsen kann. Ein Report Writer-Agent verfasst anschließend abschnittsweise den endgültigen Bericht und behandelt dabei die Wissensbasis als Faktenquelle. In diesem Framework dient das Dateisystem als dauerhafter externer Speicher und als gemeinsames Koordinationsmedium für Agenten und Sitzungen, was iterative Verbesserungen über das Kontextfenster hinaus ermöglicht. Experimente mit zwei Open-Ended-Benchmarks (DeepResearch Bench und DeepConsult) zeigen, dass FS-Researcher eine state-of-the-art Berichtsqualität über verschiedene Backbone-Modelle hinweg erreicht. Weitere Analysen demonstrieren eine positive Korrelation zwischen der endgültigen Berichtsqualität und der dem Context Builder zugewiesenen Rechenleistung, was eine effektive Skalierung zur Testzeit unter dem Dateisystem-Paradigma validiert. Der Code und die Daten sind anonym unter https://github.com/Ignoramus0817/FS-Researcher quelloffen verfügbar.
English
Deep research is emerging as a representative long-horizon task for large language model (LLM) agents. However, long trajectories in deep research often exceed model context limits, compressing token budgets for both evidence collection and report writing, and preventing effective test-time scaling. We introduce FS-Researcher, a file-system-based, dual-agent framework that scales deep research beyond the context window via a persistent workspace. Specifically, a Context Builder agent acts as a librarian which browses the internet, writes structured notes, and archives raw sources into a hierarchical knowledge base that can grow far beyond context length. A Report Writer agent then composes the final report section by section, treating the knowledge base as the source of facts. In this framework, the file system serves as a durable external memory and a shared coordination medium across agents and sessions, enabling iterative refinement beyond the context window. Experiments on two open-ended benchmarks (DeepResearch Bench and DeepConsult) show that FS-Researcher achieves state-of-the-art report quality across different backbone models. Further analyses demonstrate a positive correlation between final report quality and the computation allocated to the Context Builder, validating effective test-time scaling under the file-system paradigm. The code and data are anonymously open-sourced at https://github.com/Ignoramus0817/FS-Researcher.