ChatPaper.aiChatPaper

FS-Researcher: Масштабирование во время тестирования для долгосрочных исследовательских задач с использованием агентов на основе файловой системы

FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents

February 2, 2026
Авторы: Chiwei Zhu, Benfeng Xu, Mingxuan Du, Shaohan Wang, Xiaorui Wang, Zhendong Mao, Yongdong Zhang
cs.AI

Аннотация

Глубокое исследование становится репрезентативной задачей с длительным горизонтом для агентов на основе больших языковых моделей (LLM). Однако длинные траектории в глубоком исследовании часто превышают ограничения контекста модели, сжимая бюджет токенов как для сбора доказательств, так и для написания отчета, и препятствуя эффективному масштабированию во время тестирования. Мы представляем FS-Researcher, файлово-ориентированную дуальную агентскую систему, которая масштабирует глубокое исследование за пределы окна контекста с помощью постоянного рабочего пространства. В частности, агент-«Сборщик Контекста» действует как библиотекарь, который просматривает интернет, пишет структурированные заметки и архивирует исходные материалы в иерархическую базу знаний, способную расти далеко за пределы длины контекста. Затем агент-«Автор Отчета» составляет итоговый отчет по разделам, используя базу знаний в качестве источника фактов. В этой системе файловая система служит долговременной внешней памятью и общим средством координации между агентами и сеансами, позволяя проводить итеративное уточнение за пределами окна контекста. Эксперименты на двух открытых бенчмарках (DeepResearch Bench и DeepConsult) показывают, что FS-Researcher достигает высочайшего качества отчетов на различных базовых моделях. Дальнейший анализ демонстрирует положительную корреляцию между качеством итогового отчета и вычислительными ресурсами, выделенными Сборщику Контекста, что подтверждает эффективное масштабирование во время тестирования в рамках файловой парадигмы. Код и данные анонимно открыты по адресу https://github.com/Ignoramus0817/FS-Researcher.
English
Deep research is emerging as a representative long-horizon task for large language model (LLM) agents. However, long trajectories in deep research often exceed model context limits, compressing token budgets for both evidence collection and report writing, and preventing effective test-time scaling. We introduce FS-Researcher, a file-system-based, dual-agent framework that scales deep research beyond the context window via a persistent workspace. Specifically, a Context Builder agent acts as a librarian which browses the internet, writes structured notes, and archives raw sources into a hierarchical knowledge base that can grow far beyond context length. A Report Writer agent then composes the final report section by section, treating the knowledge base as the source of facts. In this framework, the file system serves as a durable external memory and a shared coordination medium across agents and sessions, enabling iterative refinement beyond the context window. Experiments on two open-ended benchmarks (DeepResearch Bench and DeepConsult) show that FS-Researcher achieves state-of-the-art report quality across different backbone models. Further analyses demonstrate a positive correlation between final report quality and the computation allocated to the Context Builder, validating effective test-time scaling under the file-system paradigm. The code and data are anonymously open-sourced at https://github.com/Ignoramus0817/FS-Researcher.
PDF432February 4, 2026