Voorbij Semantische Gelijkenis: Een Herbezinning op Retrieval voor Agentgestuurd Zoeken via Directe Corpusinteractie
Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction
May 3, 2026
Auteurs: Zhuofeng Li, Haoxiang Zhang, Cong Wei, Pan Lu, Ping Nie, Yi Lu, Yuyang Bai, Shangbin Feng, Hangxiao Zhu, Ming Zhong, Yuyu Zhang, Jianwen Xie, Yejin Choi, James Zou, Jiawei Han, Wenhu Chen, Jimmy Lin, Dongfu Jiang, Yu Zhang
cs.AI
Samenvatting
Moderne retrievalsystemen, zowel lexicaal als semantisch, ontsluiten een corpus via een vaste similariteitsinterface die toegang comprimeert tot een enkele top-k retrievalstap vóór redenering. Deze abstractie is efficiënt, maar voor agent-gebaseerd zoeken wordt het een knelpunt: exacte lexicale beperkingen, samenvoegingen van schaarse aanwijzingen, lokale contextcontroles en meerstaps hypothese-verfijning zijn moeilijk te implementeren door een conventionele kant-en-klare retriever aan te roepen, en bewijsmateriaal dat vroeg wordt weggefilterd kan niet worden hersteld door sterkere downstream-redenering. Agent-taken verergeren deze beperking verder omdat ze vereisen dat agenten meerdere stappen coördineren, waaronder het ontdekken van tussenliggende entiteiten, het combineren van zwakke aanwijzingen en het herzien van het plan na het observeren van gedeeltelijk bewijs.
Om deze beperking aan te pakken, bestuderen we directe corpusinteractie (DCI), waarbij een agent het ruwe corpus direct doorzoekt met algemene terminaltools (bijv. grep, bestandslezingen, shell-commando's, lichtgewicht scripts), zonder enig embeddingmodel, vectorindex of retrieval-API. Deze aanpak vereist geen offline indexering en past zich natuurlijk aan aan evoluerende lokale corpora. Op IR-benchmarks en end-to-end agent-zoektaken presteert deze eenvoudige opzet aanzienlijk beter dan sterke sparse, dense en reranking-baselines op verschillende BRIGHT- en BEIR-datasets, en behaalt het een hoge nauwkeurigheid op BrowseComp-Plus en multi-hop QA zonder te vertrouwen op een conventionele semantische retriever.
Onze resultaten geven aan dat naarmote taalagenten sterker worden, de retrievalkwaliteit niet alleen afhangt van het redeneervermogen, maar ook van de resolutie van de interface waarmee het model met het corpus interageert. DCI opent hiermee een breder interface-ontwerpruimte voor agent-gebaseerd zoeken.
English
Modern retrieval systems, whether lexical or semantic, expose a corpus through a fixed similarity interface that compresses access into a single top-k retrieval step before reasoning. This abstraction is efficient, but for agentic search, it becomes a bottleneck: exact lexical constraints, sparse clue conjunctions, local context checks, and multi-step hypothesis refinement are difficult to implement by calling a conventional off-the-shelf retriever, and evidence filtered out early cannot be recovered by stronger downstream reasoning. Agentic tasks further exacerbate this limitation because they require agents to orchestrate multiple steps, including discovering intermediate entities, combining weak clues, and revising the plan after observing partial evidence. To tackle the limitation, we study direct corpus interaction (DCI), where an agent searches the raw corpus directly with general-purpose terminal tools (e.g., grep, file reads, shell commands, lightweight scripts), without any embedding model, vector index, or retrieval API. This approach requires no offline indexing and adapts naturally to evolving local corpora. Across IR benchmarks and end-to-end agentic search tasks, this simple setup substantially outperforms strong sparse, dense, and reranking baselines on several BRIGHT and BEIR datasets, and attains strong accuracy on BrowseComp-Plus and multi-hop QA without relying on any conventional semantic retriever. Our results indicate that as language agents become stronger, retrieval quality depends not only on reasoning ability but also on the resolution of the interface through which the model interacts with the corpus, with which DCI opens a broader interface-design space for agentic search.