GrepSeek: Training van zoekagenten voor directe corpusinteractie

Samenvatting

Large Language Model (LLM) zoekagenten hebben veelbelovende resultaten laten zien voor kennisintensieve taalverwerkingstaken door middel van meerdere rondes van redeneren en informatie ophalen. De meeste bestaande systemen hebben toegang tot informatie via een retriever die een trefwoord of natuurlijke taalquery aanneemt en een gerangschikte lijst van documenten retourneert met behulp van een index van vooraf berekende documentrepresentaties. In dit werk onderzoeken we een complementair perspectief waarin de zoekagent het corpus zelf als zoekomgeving beschouwt en bewijs vindt door uitvoerbare shell-commando’s uit te geven. We introduceren GrepSeek, een geoptimaliseerde directe corpusinteractie (DCI) zoekagent die een compacte zoekagent traint om bewijs uit grote tekstcorpora te vinden, te filteren en te combineren. Om de instabiliteit van het direct aanleren van gedrag met reinforcement learning op grote corpora aan te pakken, stellen we een tweetraps trainingspijplijn voor. Eerst construeren we een cold-start dataset met behulp van een antwoordbewuste Tutor en een antwoordblinde Planner om geverifieerde, causaal gefundeerde zoektrajecten te genereren. Vervolgens verfijnen we het geïnitialiseerde beleid met Group Relative Policy Optimization (GRPO), waardoor de agent zijn taakgerichte zoekgedrag kan verbeteren via directe interactie met het corpus. Om DCI schaalbaar en praktisch te maken, gebruiken we verder een semantiekbehoudende, sharded-parallelle uitvoeringsengine die shell-gebaseerd ophalen tot 7,6 keer versnelt, terwijl byte-exacte equivalentie met sequentiële uitvoering van het shell-commando behouden blijft. Experimenten met zeven open-domein vraagbeantwoordingsbenchmarks tonen aan dat GrepSeek de sterkste algehele token-niveau F_1 en Exact Match behaalt. Onze analyse benadrukt ook de beperkingen van puur lexicale interactie bij queries met aanzienlijke oppervlaktevormvariatie, wat erop wijst dat DCI een praktische en concurrerende methode is voor zoekagenten die bestaande retrievalparadigma’s in de echte wereld kunnen aanvullen.

English

Large Language Model (LLM) search agents have shown strong promise for knowledge-intensive language tasks through multiple rounds of reasoning and information retrieval. Most existing systems access information using a retriever that takes a keyword or natural language query and returns a ranked list of documents using an index of pre-computed document representations. In this work, we explore a complementary perspective in which the search agent treats the corpus itself as the search environment and finds evidence by issuing executable shell commands. We introduce GrepSeek, an optimized direct corpus interaction (DCI) search agent that trains a compact search agent to find, filter, and compose evidence from large text corpora. To address the instability of learning behavior directly with reinforcement learning on large corpora, we propose a two-stage training pipeline. First, we construct a cold-start dataset using an answer-aware Tutor and answer-blind Planner to generate verified, causally grounded search trajectories. Second, we refine the initialized policy with Group Relative Policy Optimization (GRPO), allowing the agent to improve its task-oriented search behavior through direct interaction with the corpus. To make DCI practical at scale, we further use a semantics-preserving sharded-parallel execution engine that accelerates shell-based retrieval by up to 7.6times while preserving byte-exact equivalence with sequential execution of the shell command. Experiments across seven open-domain question answering benchmarks show that GrepSeek achieves the strongest overall token-level F_1 and Exact Match. Our analysis also highlights the limitations of purely lexical interaction on queries with substantial surface-form variation, suggesting DCI as a practical and competitive method for search agents that can complement existing retrieval paradigms in the real world.