GrepSeek: Обучение поисковых агентов для прямого взаимодействия с корпусом

Аннотация

Агенты поиска на основе больших языковых моделей (LLM) продемонстрировали большой потенциал для решения задач, требующих интенсивного использования знаний, за счет многократного рассуждения и поиска информации. Большинство существующих систем получают доступ к информации с помощью поискового модуля, который принимает ключевое слово или запрос на естественном языке и возвращает ранжированный список документов, используя индекс предварительно вычисленных представлений документов. В данной работе мы исследуем дополнительную перспективу, в которой агент поиска рассматривает сам корпус как среду поиска и находит доказательства, выполняя исполняемые команды оболочки. Мы представляем GrepSeek — оптимизированный агент поиска с прямым взаимодействием с корпусом (DCI), который обучает компактного агента поиска находить, фильтровать и составлять доказательства из больших текстовых корпусов. Для преодоления нестабильности обучения с непосредственным использованием обучения с подкреплением на больших корпусах мы предлагаем двухэтапный конвейер обучения. Сначала мы создаем набор данных холодного старта с помощью осведомленного об ответе Репетитора и не учитывающего ответы Планировщика для генерации проверенных траекторий поиска, имеющих причинно-следственную основу. Затем мы уточняем инициализированную политику с помощью групповой относительной оптимизации политики (GRPO), позволяя агенту улучшить свое целенаправленное поведение при поиске за счет прямого взаимодействия с корпусом. Чтобы обеспечить практическую применимость DCI в масштабе, мы дополнительно используем сохраняющий семантику шардированный параллельный механизм выполнения, который ускоряет поиск на основе команд оболочки до 7,6 раза, сохраняя при этом побайтовую эквивалентность с последовательным выполнением команды оболочки. Эксперименты на семи эталонных тестах по ответам на вопросы в открытой области показывают, что GrepSeek достигает наилучших общих показателей F₁ на уровне токенов и точного совпадения. Наш анализ также подчеркивает ограничения чисто лексического взаимодействия для запросов со значительными вариациями поверхностной формы, что позволяет предположить DCI как практичный и конкурентоспособный метод для агентов поиска, который может дополнять существующие парадигмы поиска в реальных условиях.

English

Large Language Model (LLM) search agents have shown strong promise for knowledge-intensive language tasks through multiple rounds of reasoning and information retrieval. Most existing systems access information using a retriever that takes a keyword or natural language query and returns a ranked list of documents using an index of pre-computed document representations. In this work, we explore a complementary perspective in which the search agent treats the corpus itself as the search environment and finds evidence by issuing executable shell commands. We introduce GrepSeek, an optimized direct corpus interaction (DCI) search agent that trains a compact search agent to find, filter, and compose evidence from large text corpora. To address the instability of learning behavior directly with reinforcement learning on large corpora, we propose a two-stage training pipeline. First, we construct a cold-start dataset using an answer-aware Tutor and answer-blind Planner to generate verified, causally grounded search trajectories. Second, we refine the initialized policy with Group Relative Policy Optimization (GRPO), allowing the agent to improve its task-oriented search behavior through direct interaction with the corpus. To make DCI practical at scale, we further use a semantics-preserving sharded-parallel execution engine that accelerates shell-based retrieval by up to 7.6times while preserving byte-exact equivalence with sequential execution of the shell command. Experiments across seven open-domain question answering benchmarks show that GrepSeek achieves the strongest overall token-level F_1 and Exact Match. Our analysis also highlights the limitations of purely lexical interaction on queries with substantial surface-form variation, suggesting DCI as a practical and competitive method for search agents that can complement existing retrieval paradigms in the real world.