GrepSeek: Training von Suchagenten für direkte Korpusinteraktion

Zusammenfassung

Suchagenten auf Basis großer Sprachmodelle (LLM) haben sich als vielversprechend für wissensintensive Sprachaufgaben erwiesen, indem sie mehrere Runden des Schlussfolgerns und der Informationsabfrage durchführen. Die meisten bestehenden Systeme greifen mit einem Retriever auf Informationen zu, der ein Schlüsselwort oder eine natürlichsprachliche Abfrage entgegennimmt und unter Verwendung eines Indexes vorberechneter Dokumentrepräsentationen eine rangierte Liste von Dokumenten zurückgibt. In dieser Arbeit untersuchen wir eine komplementäre Perspektive, bei der der Suchagent das Korpus selbst als Suchumgebung betrachtet und Belege durch die Ausführung von Shell-Befehlen findet. Wir stellen GrepSeek vor, einen optimierten Suchagenten für direkte Korpusinteraktion (DCI), der einen kompakten Suchagenten trainiert, um Belege aus großen Textkorpora zu finden, zu filtern und zusammenzustellen. Um die Instabilität des Lernverhaltens bei direktem Reinforcement Learning auf großen Korpora zu adressieren, schlagen wir eine zweistufige Trainingspipeline vor. Zunächst erstellen wir einen Kaltstart-Datensatz unter Verwendung eines antwortbewussten Tutors und eines antwortblinden Planers, um verifizierte, kausal begründete Suchtrajektorien zu generieren. Zweitens verfeinern wir die initialisierte Policy mit Group Relative Policy Optimization (GRPO), wodurch der Agent sein aufgabenorientiertes Suchverhalten durch direkte Interaktion mit dem Korpus verbessern kann. Um DCI in großem Maßstab praktikabel zu machen, verwenden wir darüber hinaus eine semantikerhaltende, shard-parallele Ausführungsengine, die die shell-basierte Abfrage um bis zu das 7,6-fache beschleunigt, während die bytegenaue Äquivalenz zur sequenziellen Ausführung des Shell-Befehls erhalten bleibt. Experimente mit sieben Open-Domain-Frage-Antwort-Benchmarks zeigen, dass GrepSeek die insgesamt stärkste tokenbezogene F_1 und Exact Match erreicht. Unsere Analyse zeigt auch die Grenzen der rein lexikalischen Interaktion bei Abfragen mit erheblicher Oberflächenformvariation auf, was DCI als praktikable und konkurrenzfähige Methode für Suchagenten nahelegt, die bestehende Retrieval-Paradigmen in der realen Welt ergänzen kann.

English

Large Language Model (LLM) search agents have shown strong promise for knowledge-intensive language tasks through multiple rounds of reasoning and information retrieval. Most existing systems access information using a retriever that takes a keyword or natural language query and returns a ranked list of documents using an index of pre-computed document representations. In this work, we explore a complementary perspective in which the search agent treats the corpus itself as the search environment and finds evidence by issuing executable shell commands. We introduce GrepSeek, an optimized direct corpus interaction (DCI) search agent that trains a compact search agent to find, filter, and compose evidence from large text corpora. To address the instability of learning behavior directly with reinforcement learning on large corpora, we propose a two-stage training pipeline. First, we construct a cold-start dataset using an answer-aware Tutor and answer-blind Planner to generate verified, causally grounded search trajectories. Second, we refine the initialized policy with Group Relative Policy Optimization (GRPO), allowing the agent to improve its task-oriented search behavior through direct interaction with the corpus. To make DCI practical at scale, we further use a semantics-preserving sharded-parallel execution engine that accelerates shell-based retrieval by up to 7.6times while preserving byte-exact equivalence with sequential execution of the shell command. Experiments across seven open-domain question answering benchmarks show that GrepSeek achieves the strongest overall token-level F_1 and Exact Match. Our analysis also highlights the limitations of purely lexical interaction on queries with substantial surface-form variation, suggesting DCI as a practical and competitive method for search agents that can complement existing retrieval paradigms in the real world.