의미적 유사성의 한계를 넘어: 직접적 코퍼스 상호작용을 통한 에이전트 기반 검색의 재고
Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction
May 3, 2026
저자: Zhuofeng Li, Haoxiang Zhang, Cong Wei, Pan Lu, Ping Nie, Yi Lu, Yuyang Bai, Shangbin Feng, Hangxiao Zhu, Ming Zhong, Yuyu Zhang, Jianwen Xie, Yejin Choi, James Zou, Jiawei Han, Wenhu Chen, Jimmy Lin, Dongfu Jiang, Yu Zhang
cs.AI
초록
어휘적이든 의미적이든 현대 검색 시스템은 코퍼스에 대한 접근을 단일의 상위 k개 검색 단계로 압축하는 고정된 유사도 인터페이스를 통해 코퍼스를 제공합니다. 이러한 추상화는 효율적이지만, 에이전트 기반 검색에서는 병목 현상이 됩니다. 정확한 어휘 제약 조건, 희소한 단서 결합, 지역적 문맥 확인, 다단계 가설 정제 등은 기존의 상용 검색기를 호출하여 구현하기 어렵고, 초기 단계에서 걸러진 증거는 강력한 하류 추론으로도 회복할 수 없습니다. 에이전트 작업은 중간 개체 발견, 약한 단서 결합, 부분적 증거 관찰 후 계획 수정 등 여러 단계를 조정해야 하므로 이러한 한계를 더욱 악화시킵니다. 이러한 한계를 해결하기 위해 우리는 직접 코퍼스 상호작용(DCI)을 연구합니다. DCI에서는 에이전트가 임베딩 모델, 벡터 인덱스, 검색 API 없이 범용 터미널 도구(예: grep, 파일 읽기, 셸 명령, 경량 스크립트)를 사용하여 원시 코퍼스를 직접 검색합니다. 이 접근 방식은 오프라인 색인이 필요 없으며 진화하는 지역 코퍼스에 자연스럽게 적응합니다. IR 벤치마크와 종단간 에이전트 검색 작업 전반에 걸쳐, 이 간단한 설정은 여러 BRIGHT 및 BEIR 데이터셋에서 강력한 희소, 밀집, 재순위화 기준선을 크게 능가하며, 기존의 의미 기반 검색기에 의존하지 않고 BrowseComp-Plus 및 다중 홉 질의응답에서 높은 정확도를 달성합니다. 우리의 결과는 언어 에이전트가 강력해질수록 검색 품질이 추론 능력뿐만 아니라 모델이 코퍼스와 상호작용하는 인터페이스의 해상도에 달려 있음을 시사하며, DCI는 에이전트 기반 검색을 위한 더 넓은 인터페이스 설계 공간을 열어줍니다.
English
Modern retrieval systems, whether lexical or semantic, expose a corpus through a fixed similarity interface that compresses access into a single top-k retrieval step before reasoning. This abstraction is efficient, but for agentic search, it becomes a bottleneck: exact lexical constraints, sparse clue conjunctions, local context checks, and multi-step hypothesis refinement are difficult to implement by calling a conventional off-the-shelf retriever, and evidence filtered out early cannot be recovered by stronger downstream reasoning. Agentic tasks further exacerbate this limitation because they require agents to orchestrate multiple steps, including discovering intermediate entities, combining weak clues, and revising the plan after observing partial evidence. To tackle the limitation, we study direct corpus interaction (DCI), where an agent searches the raw corpus directly with general-purpose terminal tools (e.g., grep, file reads, shell commands, lightweight scripts), without any embedding model, vector index, or retrieval API. This approach requires no offline indexing and adapts naturally to evolving local corpora. Across IR benchmarks and end-to-end agentic search tasks, this simple setup substantially outperforms strong sparse, dense, and reranking baselines on several BRIGHT and BEIR datasets, and attains strong accuracy on BrowseComp-Plus and multi-hop QA without relying on any conventional semantic retriever. Our results indicate that as language agents become stronger, retrieval quality depends not only on reasoning ability but also on the resolution of the interface through which the model interacts with the corpus, with which DCI opens a broader interface-design space for agentic search.