GrepSeek : Entraînement d’agents de recherche pour une interaction directe avec le corpus

Résumé

Les agents de recherche basés sur les grands modèles de langage (LLM) ont démontré un fort potentiel pour les tâches linguistiques gourmandes en connaissances, grâce à des cycles multiples de raisonnement et de recherche d'informations. La plupart des systèmes existants accèdent à l'information en utilisant un extracteur qui prend une requête sous forme de mot-clé ou de langage naturel et renvoie une liste classée de documents à partir d'un index de représentations documentaires pré-calculées. Dans ce travail, nous explorons une perspective complémentaire dans laquelle l'agent de recherche traite le corpus lui-même comme un environnement de recherche et trouve des preuves en exécutant des commandes shell. Nous présentons GrepSeek, un agent de recherche optimisé à interaction directe avec le corpus (DCI), qui entraîne un agent de recherche compact à trouver, filtrer et composer des preuves issues de grands corpus textuels. Pour pallier l'instabilité de l'apprentissage par renforcement direct sur de grands corpus, nous proposons un pipeline d'entraînement en deux étapes. Dans un premier temps, nous construisons un ensemble de données de démarrage à froid en utilisant un tuteur conscient des réponses et un planificateur aveugle aux réponses pour générer des trajectoires de recherche vérifiées et causalement fondées. Dans un second temps, nous affinons la politique initialisée à l'aide de l'optimisation relative de politique par groupe (GRPO), permettant à l'agent d'améliorer son comportement de recherche orienté vers les tâches par interaction directe avec le corpus. Pour rendre la DCI pratique à grande échelle, nous utilisons en outre un moteur d'exécution parallèle par fragments préservant la sémantique, qui accélère la recherche en ligne de commande jusqu'à 7,6 fois tout en maintenant une équivalence octet par octet avec l'exécution séquentielle de la commande shell. Les expériences menées sur sept bancs d'essai de questions-réponses en domaine ouvert montrent que GrepSeek obtient les meilleurs scores globaux en F_1 au niveau des tokens et en correspondance exacte (Exact Match). Notre analyse met également en évidence les limites d'une interaction purement lexicale sur des requêtes présentant des variations de forme substantielles, suggérant que la DCI constitue une méthode pratique et compétitive pour les agents de recherche, pouvant compléter les paradigmes de recherche existants dans le monde réel.

English

Large Language Model (LLM) search agents have shown strong promise for knowledge-intensive language tasks through multiple rounds of reasoning and information retrieval. Most existing systems access information using a retriever that takes a keyword or natural language query and returns a ranked list of documents using an index of pre-computed document representations. In this work, we explore a complementary perspective in which the search agent treats the corpus itself as the search environment and finds evidence by issuing executable shell commands. We introduce GrepSeek, an optimized direct corpus interaction (DCI) search agent that trains a compact search agent to find, filter, and compose evidence from large text corpora. To address the instability of learning behavior directly with reinforcement learning on large corpora, we propose a two-stage training pipeline. First, we construct a cold-start dataset using an answer-aware Tutor and answer-blind Planner to generate verified, causally grounded search trajectories. Second, we refine the initialized policy with Group Relative Policy Optimization (GRPO), allowing the agent to improve its task-oriented search behavior through direct interaction with the corpus. To make DCI practical at scale, we further use a semantics-preserving sharded-parallel execution engine that accelerates shell-based retrieval by up to 7.6times while preserving byte-exact equivalence with sequential execution of the shell command. Experiments across seven open-domain question answering benchmarks show that GrepSeek achieves the strongest overall token-level F_1 and Exact Match. Our analysis also highlights the limitations of purely lexical interaction on queries with substantial surface-form variation, suggesting DCI as a practical and competitive method for search agents that can complement existing retrieval paradigms in the real world.