ChatPaper.aiChatPaper

Au-delà de la similarité sémantique : Repenser la recherche par interaction directe avec le corpus pour les agents de recherche

Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

May 3, 2026
Auteurs: Zhuofeng Li, Haoxiang Zhang, Cong Wei, Pan Lu, Ping Nie, Yi Lu, Yuyang Bai, Shangbin Feng, Hangxiao Zhu, Ming Zhong, Yuyu Zhang, Jianwen Xie, Yejin Choi, James Zou, Jiawei Han, Wenhu Chen, Jimmy Lin, Dongfu Jiang, Yu Zhang
cs.AI

Résumé

Les systèmes de recherche modernes, qu'ils soient lexicaux ou sémantiques, donnent accès à un corpus via une interface de similarité fixe qui comprime l'accès en une seule étape de récupération top-k avant le raisonnement. Cette abstraction est efficace, mais pour la recherche agentielle, elle devient un goulot d'étranglement : les contraintes lexicales exactes, les conjonctions d'indices épars, les vérifications de contexte local et l'affinement d'hypothèses en plusieurs étapes sont difficiles à mettre en œuvre en utilisant un récupérateur conventionnel standard, et les éléments de preuve éliminés précocement ne peuvent pas être récupérés par un raisonnement en aval plus puissant. Les tâches agentielles exacerbent davantage cette limitation car elles exigent que les agents orchestrent de multiples étapes, incluant la découverte d'entités intermédiaires, la combinaison d'indices faibles et la révision du plan après l'observation de preuves partielles. Pour contourner cette limitation, nous étudions l'interaction directe avec le corpus (DCI), où un agent recherche directement dans le corpus brut à l'aide d'outils génériques de terminal (par exemple, grep, lectures de fichiers, commandes shell, scripts légers), sans aucun modèle d'embedding, index vectoriel ou API de récupération. Cette approche ne nécessite aucun indexation préalable et s'adapte naturellement à des corpus locaux évolutifs. Sur divers benchmarks de RI et des tâches de recherche agentielle de bout en bout, cette configuration simple surpasse substantiellement des bases de référence solides de recherche éparse, dense et de reranking sur plusieurs jeux de données BRIGHT et BEIR, et atteint une forte précision sur BrowseComp-Plus et le QA multi-sauts sans s'appuyer sur aucun récupérateur sémantique conventionnel. Nos résultats indiquent qu'à mesure que les agents linguistiques deviennent plus performants, la qualité de la récupération dépend non seulement de la capacité de raisonnement, mais aussi de la résolution de l'interface via laquelle le modèle interagit avec le corpus. La DCI ouvre ainsi un espace de conception d'interface plus large pour la recherche agentielle.
English
Modern retrieval systems, whether lexical or semantic, expose a corpus through a fixed similarity interface that compresses access into a single top-k retrieval step before reasoning. This abstraction is efficient, but for agentic search, it becomes a bottleneck: exact lexical constraints, sparse clue conjunctions, local context checks, and multi-step hypothesis refinement are difficult to implement by calling a conventional off-the-shelf retriever, and evidence filtered out early cannot be recovered by stronger downstream reasoning. Agentic tasks further exacerbate this limitation because they require agents to orchestrate multiple steps, including discovering intermediate entities, combining weak clues, and revising the plan after observing partial evidence. To tackle the limitation, we study direct corpus interaction (DCI), where an agent searches the raw corpus directly with general-purpose terminal tools (e.g., grep, file reads, shell commands, lightweight scripts), without any embedding model, vector index, or retrieval API. This approach requires no offline indexing and adapts naturally to evolving local corpora. Across IR benchmarks and end-to-end agentic search tasks, this simple setup substantially outperforms strong sparse, dense, and reranking baselines on several BRIGHT and BEIR datasets, and attains strong accuracy on BrowseComp-Plus and multi-hop QA without relying on any conventional semantic retriever. Our results indicate that as language agents become stronger, retrieval quality depends not only on reasoning ability but also on the resolution of the interface through which the model interacts with the corpus, with which DCI opens a broader interface-design space for agentic search.
PDF452May 9, 2026