GrepSeek: Entrenamiento de agentes de búsqueda para la interacción directa con el corpus

Resumen

Los agentes de búsqueda basados en Modelos de Lenguaje de Gran Escala (LLM) han mostrado un gran potencial para tareas lingüísticas intensivas en conocimiento a través de múltiples rondas de razonamiento y recuperación de información. La mayoría de los sistemas existentes acceden a la información mediante un recuperador que toma una consulta en lenguaje natural o con palabras clave y devuelve una lista clasificada de documentos utilizando un índice de representaciones de documentos precalculadas. En este trabajo, exploramos una perspectiva complementaria en la que el agente de búsqueda trata el propio corpus como entorno de búsqueda y encuentra evidencia mediante la emisión de comandos de shell ejecutables. Presentamos GrepSeek, un agente de búsqueda optimizado de interacción directa con el corpus (DCI) que entrena un agente de búsqueda compacto para encontrar, filtrar y componer evidencia a partir de grandes corpus de texto. Para abordar la inestabilidad del comportamiento de aprendizaje directamente con aprendizaje por refuerzo en corpus grandes, proponemos un pipeline de entrenamiento en dos etapas. Primero, construimos un conjunto de datos de arranque en frío utilizando un Tutor consciente de la respuesta y un Planificador ciego a la respuesta para generar trayectorias de búsqueda verificadas y causalmente fundamentadas. Segundo, refinamos la política inicializada con Optimización Relativa de Políticas por Grupo (GRPO), permitiendo que el agente mejore su comportamiento de búsqueda orientado a tareas mediante la interacción directa con el corpus. Para hacer que DCI sea práctico a escala, utilizamos además un motor de ejecución paralela fragmentada que preserva la semántica, acelerando la recuperación basada en shell hasta 7.6 veces, mientras mantiene una equivalencia exacta a nivel de bytes con la ejecución secuencial del comando de shell. Los experimentos en siete puntos de referencia de respuesta a preguntas en dominio abierto muestran que GrepSeek logra los mejores resultados generales en F_1 a nivel de token y Coincidencia Exacta. Nuestro análisis también destaca las limitaciones de la interacción puramente léxica en consultas con variación sustancial en la forma superficial, sugiriendo que DCI es un método práctico y competitivo para agentes de búsqueda que puede complementar los paradigmas de recuperación existentes en el mundo real.

English

Large Language Model (LLM) search agents have shown strong promise for knowledge-intensive language tasks through multiple rounds of reasoning and information retrieval. Most existing systems access information using a retriever that takes a keyword or natural language query and returns a ranked list of documents using an index of pre-computed document representations. In this work, we explore a complementary perspective in which the search agent treats the corpus itself as the search environment and finds evidence by issuing executable shell commands. We introduce GrepSeek, an optimized direct corpus interaction (DCI) search agent that trains a compact search agent to find, filter, and compose evidence from large text corpora. To address the instability of learning behavior directly with reinforcement learning on large corpora, we propose a two-stage training pipeline. First, we construct a cold-start dataset using an answer-aware Tutor and answer-blind Planner to generate verified, causally grounded search trajectories. Second, we refine the initialized policy with Group Relative Policy Optimization (GRPO), allowing the agent to improve its task-oriented search behavior through direct interaction with the corpus. To make DCI practical at scale, we further use a semantics-preserving sharded-parallel execution engine that accelerates shell-based retrieval by up to 7.6times while preserving byte-exact equivalence with sequential execution of the shell command. Experiments across seven open-domain question answering benchmarks show that GrepSeek achieves the strongest overall token-level F_1 and Exact Match. Our analysis also highlights the limitations of purely lexical interaction on queries with substantial surface-form variation, suggesting DCI as a practical and competitive method for search agents that can complement existing retrieval paradigms in the real world.