ChatPaper.aiChatPaper

За пределами семантического сходства: переосмысление поиска для агентного поиска через прямое взаимодействие с корпусом

Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

May 3, 2026
Авторы: Zhuofeng Li, Haoxiang Zhang, Cong Wei, Pan Lu, Ping Nie, Yi Lu, Yuyang Bai, Shangbin Feng, Hangxiao Zhu, Ming Zhong, Yuyu Zhang, Jianwen Xie, Yejin Choi, James Zou, Jiawei Han, Wenhu Chen, Jimmy Lin, Dongfu Jiang, Yu Zhang
cs.AI

Аннотация

Современные системы поиска, будь то лексические или семантические, предоставляют доступ к корпусу через фиксированный интерфейс схожести, который сводит доступ к единственному шагу top-k-поиска перед рассуждением. Эта абстракция эффективна, но для агентского поиска она становится узким местом: точные лексические ограничения, разреженные конъюнкции ключей, проверки локального контекста и многоэтапное уточнение гипотез сложно реализовать с помощью вызовов стандартного готового поискового модуля, а доказательства, отфильтрованные на раннем этапе, не могут быть восстановлены более мощным последующим рассуждением. Агентские задачи дополнительно усугубляют это ограничение, поскольку требуют от агентов координации множества шагов, включая обнаружение промежуточных сущностей, комбинирование слабых ключей и пересмотр плана после наблюдения частичных доказательств. Для преодоления этого ограничения мы исследуем прямое взаимодействие с корпусом (DCI), при котором агент осуществляет поиск по исходному корпусу напрямую с помощью инструментов общего назначения (например, grep, чтение файлов, shell-команды, легковесные скрипты), без использования каких-либо моделей эмбеддингов, векторных индексов или поисковых API. Этот подход не требует оффлайн-индексирования и естественно адаптируется к эволюционирующим локальным корпусам. На IR-бенчмарках и сквозных агентских поисковых задачах данная простая установка существенно превосходит сильные базовые методы разреженного, плотного поиска и переранжирования на нескольких наборах данных BRIGHT и BEIR, а также демонстрирует высокую точность на BrowseComp-Plus и многошаговом QA без опоры на какие-либо традиционные семантические поисковые системы. Наши результаты показывают, что по мере усиления языковых агентов качество поиска зависит не только от способности к рассуждению, но и от разрешения интерфейса, через который модель взаимодействует с корпусом. DCI открывает более широкое пространство проектирования интерфейсов для агентского поиска.
English
Modern retrieval systems, whether lexical or semantic, expose a corpus through a fixed similarity interface that compresses access into a single top-k retrieval step before reasoning. This abstraction is efficient, but for agentic search, it becomes a bottleneck: exact lexical constraints, sparse clue conjunctions, local context checks, and multi-step hypothesis refinement are difficult to implement by calling a conventional off-the-shelf retriever, and evidence filtered out early cannot be recovered by stronger downstream reasoning. Agentic tasks further exacerbate this limitation because they require agents to orchestrate multiple steps, including discovering intermediate entities, combining weak clues, and revising the plan after observing partial evidence. To tackle the limitation, we study direct corpus interaction (DCI), where an agent searches the raw corpus directly with general-purpose terminal tools (e.g., grep, file reads, shell commands, lightweight scripts), without any embedding model, vector index, or retrieval API. This approach requires no offline indexing and adapts naturally to evolving local corpora. Across IR benchmarks and end-to-end agentic search tasks, this simple setup substantially outperforms strong sparse, dense, and reranking baselines on several BRIGHT and BEIR datasets, and attains strong accuracy on BrowseComp-Plus and multi-hop QA without relying on any conventional semantic retriever. Our results indicate that as language agents become stronger, retrieval quality depends not only on reasoning ability but also on the resolution of the interface through which the model interacts with the corpus, with which DCI opens a broader interface-design space for agentic search.
PDF452May 9, 2026