Dr-DCI: Масштабирование прямого взаимодействия с корпусом посредством расширения динамического рабочего пространства

Аннотация

Агентный поиск по большим корпусам опирается на интерфейсы, опосредованные ретривером (например, BM25 или ColBERT), для масштабируемого обнаружения кандидатов. Хотя эти интерфейсы эффективно ранжируют релевантные документы, они предоставляют доказательства лишь в виде ранжированных результатов или ограниченных представлений документов, что ограничивает способность агентов реорганизовывать материал и проверять ограничения между документами. Прямое взаимодействие с корпусом (DCI) решает эту проблему, предоставляя операции с корпусом, выполняемые в командной оболочке, для гибкого поиска, фильтрации, сравнения и верификации. Однако при увеличении корпуса полноценные терминальные команды становятся медленными и нестабильными, снижая производительность и эффективность. Мы представляем DR-DCI — фреймворк DCI, управляемый ретривером, который рассматривает поиск как вызываемое агентом действие для расширения локального рабочего пространства. Вместо работы непосредственно со всем корпусом агент динамически извлекает релевантные документы в развивающееся рабочее пространство и выполняет в нем операции DCI. Такая конструкция сочетает полноту на уровне ретривера с точностью в стиле DCI: поиск обеспечивает масштабируемость исследования, а DCI сохраняет локальные операции, необходимые для эффективного разрешения доказательств. Эксперименты показывают, что DR-DCI эффективен и результативен при различных масштабах. На Browsecomp-Plus DR-DCI достигает точности 71,2%, улучшая показатели по сравнению с исходным DCI и вариантами с абляцией на величину до 8,3 процентных пункта, одновременно снижая использование инструментов, реальное время и расчетную стоимость. При сбросе контекста с сохранением рабочего пространства точность дополнительно повышается до 73,3%. В экспериментах по масштабированию корпуса DR-DCI сохраняет эффективность при диапазоне от 100 тысяч до 10 миллионов документов, тогда как исходный DCI становится нестабильным, а BM25 демонстрирует значительно худшие результаты. DR-DCI также масштабируется до конфигурации Wiki-18 QA с 20 миллионами файлов на документ, достигая среднего балла 63,0 по шести бенчмаркам и превосходя базовые подходы на основе поиска и обученные агенты поиска. Абляционный анализ дополнительно показывает, что ранжированные предварительные просмотры и междокументное DCI имеют ключевое значение для производительности.

English

Agentic search over large corpora relies on retriever-mediated interfaces (e.g., BM25 or ColBERT) for scalable candidate discovery. While effective at ranking relevant documents, these interfaces expose evidence only as ranked results or bounded document views, limiting agents' ability to reorganize material and verify constraints across documents. Direct Corpus Interaction (DCI) addresses this limitation by exposing shell-executable corpus operations for flexible search, filtering, comparison, and verification. However, full-corpus terminal commands become slow and unstable as the corpus grows, degrading performance and efficiency. We introduce DR-DCI, a retriever-steered DCI framework that treats retrieval as an agent-callable action for expanding a local workspace. Rather than operating directly over the full corpus, the agent dynamically pulls relevant documents into an evolving workspace and conducts DCI operations within it. This design combines retriever-level recall with DCI-style precision: retrieval keeps exploration scalable, while DCI preserves the local operations needed for effective evidence resolution. Experiments show that DR-DCI is both effective and efficient across scales. On Browsecomp-Plus, DR-DCI reaches 71.2\% accuracy, improving over raw DCI and ablated variants by up to 8.3 points while reducing tool usage, wall time, and estimated cost. With workspace-preserving context reset, accuracy further improves to 73.3\%. In corpus-scaling experiments, DR-DCI remains effective from 100K to 10M documents, whereas raw DCI becomes unstable and BM25 performs substantially worse. DR-DCI also scales to a 20M-scale file-per-document Wiki-18 QA setting, achieving an average score of 63.0 across six benchmarks and outperforming retrieval-based and trained search-agent baselines. Ablation analysis further shows that ranked previews and inter-document DCI are key to performance.