FS-Researcher: Test-Time Scaling voor Onderzoektaken met Lange Horizons met Bestandssysteemgebaseerde Agents

Samenvatting

Diepgaand onderzoek komt naar voren als een representatieve langetermijntaak voor grote-taalmodel (LLM) agenten. Echter overschrijden lange trajecten bij diepgaand onderzoek vaak de contextlimieten van modellen, wat het tokenbudget voor zowel het verzamelen van bewijs als het schrijven van rapporten comprimeert en effectieve schaalvergroting tijdens testen verhindert. Wij introduceren FS-Researcher, een op bestandssystemen gebaseerd dual-agent raamwerk dat diepgaand onderzoek voorbij het contextvenster schaalt via een persistente werkruimte. Concreet fungeert een Context Builder-agent als bibliothecaris die het internet doorzoekt, gestructureerde notities schrijft en ruwe bronnen archiveert in een hiërarchische kennisbank die ver voorbij de contextlengte kan groeien. Een Report Writer-agent stelt vervolgens het eindrapport sectie voor sectie samen, waarbij de kennisbank als feitenbron dient. In dit raamwerk fungeert het bestandssysteem als een duurzaam extern geheugen en een gedeeld coördinatiemedium tussen agenten en sessies, wat iteratieve verfijning voorbij het contextvenster mogelijk maakt. Experimenten op twee open-einde benchmarks (DeepResearch Bench en DeepConsult) tonen aan dat FS-Researcher state-of-the-art rapportkwaliteit bereikt across verschillende backbone-modellen. Verdere analyses demonstreren een positief verband tussen de uiteindelijke rapportkwaliteit en de aan de Context Builder toegewezen rekenkracht, wat effectieve schaalvergroting tijdens testen valideert onder het bestandssysteemparadigma. De code en data zijn anoniem open-source gemaakt op https://github.com/Ignoramus0817/FS-Researcher.

English

Deep research is emerging as a representative long-horizon task for large language model (LLM) agents. However, long trajectories in deep research often exceed model context limits, compressing token budgets for both evidence collection and report writing, and preventing effective test-time scaling. We introduce FS-Researcher, a file-system-based, dual-agent framework that scales deep research beyond the context window via a persistent workspace. Specifically, a Context Builder agent acts as a librarian which browses the internet, writes structured notes, and archives raw sources into a hierarchical knowledge base that can grow far beyond context length. A Report Writer agent then composes the final report section by section, treating the knowledge base as the source of facts. In this framework, the file system serves as a durable external memory and a shared coordination medium across agents and sessions, enabling iterative refinement beyond the context window. Experiments on two open-ended benchmarks (DeepResearch Bench and DeepConsult) show that FS-Researcher achieves state-of-the-art report quality across different backbone models. Further analyses demonstrate a positive correlation between final report quality and the computation allocated to the Context Builder, validating effective test-time scaling under the file-system paradigm. The code and data are anonymously open-sourced at https://github.com/Ignoramus0817/FS-Researcher.

FS-Researcher: Test-Time Scaling voor Onderzoektaken met Lange Horizons met Bestandssysteemgebaseerde Agents

FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents

Samenvatting

Support