GrepSeek: Treinando Agentes de Busca para Interação Direta com o Corpus

Resumo

Agentes de busca baseados em Modelos de Linguagem de Grande Porte (LLMs) têm demonstrado forte potencial para tarefas linguísticas intensivas em conhecimento por meio de múltiplas rodadas de raciocínio e recuperação de informações. A maioria dos sistemas existentes acessa informações utilizando um recuperador que recebe uma consulta em palavra-chave ou linguagem natural e retorna uma lista classificada de documentos com base em um índice de representações documentais pré-computadas. Neste trabalho, exploramos uma perspectiva complementar na qual o agente de busca trata o próprio corpus como ambiente de busca e encontra evidências emitindo comandos executáveis de shell. Apresentamos o GrepSeek, um agente de busca otimizado para interação direta com o corpus (DCI) que treina um agente de busca compacto para localizar, filtrar e compor evidências a partir de grandes corpora textuais. Para lidar com a instabilidade do aprendizado de comportamento diretamente por meio de aprendizado por reforço em corpora extensos, propomos um pipeline de treinamento em duas etapas. Primeiro, construímos um conjunto de dados de inicialização a frio utilizando um Tutor ciente da resposta e um Planejador cego à resposta para gerar trajetórias de busca verificadas e causalmente fundamentadas. Segundo, refinamos a política inicializada com Otimização de Política Relativa em Grupo (GRPO), permitindo que o agente aprimore seu comportamento de busca orientado a tarefas por meio da interação direta com o corpus. Para tornar o DCI prático em escala, utilizamos ainda um mecanismo de execução paralela fragmentada que preserva semântica, acelerando a recuperação baseada em shell em até 7,6 vezes, mantendo equivalência exata em nível de byte com a execução sequencial do comando shell. Experimentos em sete referências de resposta a perguntas em domínio aberto mostram que o GrepSeek alcança o melhor F₁ geral em nível de token e Correspondência Exata. Nossa análise também destaca as limitações da interação puramente lexical em consultas com variação substancial na forma superficial, sugerindo o DCI como um método prático e competitivo para agentes de busca que podem complementar paradigmas de recuperação existentes no mundo real.

English

Large Language Model (LLM) search agents have shown strong promise for knowledge-intensive language tasks through multiple rounds of reasoning and information retrieval. Most existing systems access information using a retriever that takes a keyword or natural language query and returns a ranked list of documents using an index of pre-computed document representations. In this work, we explore a complementary perspective in which the search agent treats the corpus itself as the search environment and finds evidence by issuing executable shell commands. We introduce GrepSeek, an optimized direct corpus interaction (DCI) search agent that trains a compact search agent to find, filter, and compose evidence from large text corpora. To address the instability of learning behavior directly with reinforcement learning on large corpora, we propose a two-stage training pipeline. First, we construct a cold-start dataset using an answer-aware Tutor and answer-blind Planner to generate verified, causally grounded search trajectories. Second, we refine the initialized policy with Group Relative Policy Optimization (GRPO), allowing the agent to improve its task-oriented search behavior through direct interaction with the corpus. To make DCI practical at scale, we further use a semantics-preserving sharded-parallel execution engine that accelerates shell-based retrieval by up to 7.6times while preserving byte-exact equivalence with sequential execution of the shell command. Experiments across seven open-domain question answering benchmarks show that GrepSeek achieves the strongest overall token-level F_1 and Exact Match. Our analysis also highlights the limitations of purely lexical interaction on queries with substantial surface-form variation, suggesting DCI as a practical and competitive method for search agents that can complement existing retrieval paradigms in the real world.