Dr-DCI: Skalierung direkter Korpusinteraktion durch dynamische Arbeitsbereichserweiterung

Zusammenfassung

Agentische Suche über große Textkorpora stützt sich auf Retriever-vermittelte Schnittstellen (z. B. BM25 oder ColBERT) für eine skalierbare Kandidatenfindung. Obwohl diese Schnittstellen relevante Dokumente effektiv ranken, präsentieren sie Belege nur als gerankte Ergebnisse oder begrenzte Dokumentenansichten, was die Fähigkeit von Agenten einschränkt, Material neu zu organisieren und Einschränkungen über Dokumente hinweg zu überprüfen. Die Direkte Korpusinteraktion (DCI) behebt diese Einschränkung, indem sie shell-ausführbare Korpusoperationen für flexible Suche, Filterung, Vergleich und Verifikation bereitstellt. Allerdings werden Korpusweite Terminalbefehle mit wachsender Korpusgröße langsam und instabil, was Leistung und Effizienz beeinträchtigt. Wir führen DR-DCI ein, ein Retriever-gesteuertes DCI-Framework, das Retrieval als agentenaufrufbare Aktion zur Erweiterung eines lokalen Arbeitsbereichs behandelt. Anstatt direkt über den gesamten Korpus zu operieren, zieht der Agent dynamisch relevante Dokumente in einen sich entwickelnden Arbeitsbereich und führt darin DCI-Operationen aus. Dieses Design kombiniert Recall auf Retriever-Ebene mit Präzision im DCI-Stil: Retrieval hält die Exploration skalierbar, während DCI die lokalen Operationen bewahrt, die für eine effektive Belegauflösung nötig sind. Experimente zeigen, dass DR-DCI über verschiedene Größenordnungen hinweg sowohl effektiv als auch effizient ist. Auf Browsecomp-Plus erreicht DR-DCI eine Genauigkeit von 71,2 %, was eine Verbesserung von bis zu 8,3 Punkten gegenüber rohem DCI und ablatierten Varianten darstellt, bei gleichzeitig reduzierter Tool-Nutzung, Wandzeit und geschätzten Kosten. Mit einem Arbeitsbereich-erhaltenden Kontext-Reset verbessert sich die Genauigkeit weiter auf 73,3 %. In Korpus-Skalierungsexperimenten bleibt DR-DCI von 100.000 bis 10 Millionen Dokumenten effektiv, während rohes DCI instabil wird und BM25 deutlich schlechter abschneidet. DR-DCI skaliert zudem auf ein Wiki-18-QA-Setting mit 20 Millionen Dateien pro Dokument und erzielt eine durchschnittliche Punktzahl von 63,0 über sechs Benchmarks, wobei es Retrieval-basierte und trainierte Suchagenten-Baselines übertrifft. Ablationsanalysen zeigen weiterhin, dass gerankte Vorschauen und dokumentübergreifende DCI für die Leistung entscheidend sind.

English

Agentic search over large corpora relies on retriever-mediated interfaces (e.g., BM25 or ColBERT) for scalable candidate discovery. While effective at ranking relevant documents, these interfaces expose evidence only as ranked results or bounded document views, limiting agents' ability to reorganize material and verify constraints across documents. Direct Corpus Interaction (DCI) addresses this limitation by exposing shell-executable corpus operations for flexible search, filtering, comparison, and verification. However, full-corpus terminal commands become slow and unstable as the corpus grows, degrading performance and efficiency. We introduce DR-DCI, a retriever-steered DCI framework that treats retrieval as an agent-callable action for expanding a local workspace. Rather than operating directly over the full corpus, the agent dynamically pulls relevant documents into an evolving workspace and conducts DCI operations within it. This design combines retriever-level recall with DCI-style precision: retrieval keeps exploration scalable, while DCI preserves the local operations needed for effective evidence resolution. Experiments show that DR-DCI is both effective and efficient across scales. On Browsecomp-Plus, DR-DCI reaches 71.2\% accuracy, improving over raw DCI and ablated variants by up to 8.3 points while reducing tool usage, wall time, and estimated cost. With workspace-preserving context reset, accuracy further improves to 73.3\%. In corpus-scaling experiments, DR-DCI remains effective from 100K to 10M documents, whereas raw DCI becomes unstable and BM25 performs substantially worse. DR-DCI also scales to a 20M-scale file-per-document Wiki-18 QA setting, achieving an average score of 63.0 across six benchmarks and outperforming retrieval-based and trained search-agent baselines. Ablation analysis further shows that ranked previews and inter-document DCI are key to performance.