Más Allá de la Similitud Semántica: Repensando la Recuperación para la Búsqueda Agéntica mediante la Interacción Directa con el Corpus
Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction
May 3, 2026
Autores: Zhuofeng Li, Haoxiang Zhang, Cong Wei, Pan Lu, Ping Nie, Yi Lu, Yuyang Bai, Shangbin Feng, Hangxiao Zhu, Ming Zhong, Yuyu Zhang, Jianwen Xie, Yejin Choi, James Zou, Jiawei Han, Wenhu Chen, Jimmy Lin, Dongfu Jiang, Yu Zhang
cs.AI
Resumen
Los sistemas de recuperación modernos, ya sean léxicos o semánticos, exponen un corpus a través de una interfaz de similitud fija que comprime el acceso en un único paso de recuperación top-k antes del razonamiento. Esta abstracción es eficiente, pero para la búsqueda agentiva se convierte en un cuello de botella: las restricciones léxicas exactas, las conjunciones de pistas dispersas, las verificaciones de contexto local y el refinamiento de hipótesis en múltiples pasos son difíciles de implementar mediante el uso de un recuperador convencional estándar, y la evidencia filtrada previamente no puede ser recuperada por un razonamiento posterior más potente. Las tareas agentivas exacerban aún más esta limitación porque requieren que los agentes orquesten múltiples pasos, incluyendo el descubrimiento de entidades intermedias, la combinación de pistas débiles y la revisión del plan tras observar evidencia parcial. Para abordar esta limitación, estudiamos la interacción directa con el corpus (DCI), donde un agente busca directamente en el corpus crudo utilizando herramientas de terminal de propósito general (por ejemplo, grep, lectura de archivos, comandos de shell, scripts ligeros), sin ningún modelo de embeddings, índice vectorial o API de recuperación. Este enfoque no requiere indexación offline y se adapta naturalmente a corpus locales en evolución. En benchmarks de RI y tareas de búsqueda agentiva de extremo a extremo, esta configuración simple supera sustancialmente a sólidos baselines de recuperación dispersa, densa y reranking en varios conjuntos de datos BRIGHT y BEIR, y alcanza una alta precisión en BrowseComp-Plus y QA multi-hop sin depender de ningún recuperador semántico convencional. Nuestros resultados indican que, a medida que los agentes de lenguaje se vuelven más potentes, la calidad de la recuperación depende no solo de la capacidad de razonamiento, sino también de la resolución de la interfaz a través de la cual el modelo interactúa con el corpus, abriendo DCI un espacio de diseño de interfaz más amplio para la búsqueda agentiva.
English
Modern retrieval systems, whether lexical or semantic, expose a corpus through a fixed similarity interface that compresses access into a single top-k retrieval step before reasoning. This abstraction is efficient, but for agentic search, it becomes a bottleneck: exact lexical constraints, sparse clue conjunctions, local context checks, and multi-step hypothesis refinement are difficult to implement by calling a conventional off-the-shelf retriever, and evidence filtered out early cannot be recovered by stronger downstream reasoning. Agentic tasks further exacerbate this limitation because they require agents to orchestrate multiple steps, including discovering intermediate entities, combining weak clues, and revising the plan after observing partial evidence. To tackle the limitation, we study direct corpus interaction (DCI), where an agent searches the raw corpus directly with general-purpose terminal tools (e.g., grep, file reads, shell commands, lightweight scripts), without any embedding model, vector index, or retrieval API. This approach requires no offline indexing and adapts naturally to evolving local corpora. Across IR benchmarks and end-to-end agentic search tasks, this simple setup substantially outperforms strong sparse, dense, and reranking baselines on several BRIGHT and BEIR datasets, and attains strong accuracy on BrowseComp-Plus and multi-hop QA without relying on any conventional semantic retriever. Our results indicate that as language agents become stronger, retrieval quality depends not only on reasoning ability but also on the resolution of the interface through which the model interacts with the corpus, with which DCI opens a broader interface-design space for agentic search.