딥 리서치에서 텍스트 랭킹 재고하기
Revisiting Text Ranking in Deep Research
February 25, 2026
저자: Chuan Meng, Litu Ou, Sean MacAvaney, Jeff Dalton
cs.AI
초록
딥 리서치는 광범위한 오픈 웹 탐색을 통해 복잡한 질의를 해결하는 것을 목표로 하는 중요한 과제로 부상했습니다. 이를 해결하기 위해 기존 연구의 대부분은 대규모 언어 모델(LLM) 기반 에이전트에 불투명한 웹 검색 API를 장착하여, 에이전트가 반복적으로 검색 질의를 발행하고 외부 증거를 검색하며 이를 추론할 수 있도록 합니다. 딥 리서치에서 검색의 역할이 필수적임에도 불구하고, 블랙박스 형태의 웹 검색 API는 검색 구성 요소에 대한 체계적인 분석을 방해하여, 딥 리서치 환경에서 기존 텍스트 랭킹 방법들의 동작 방식을 대체로 불명확하게 남겨둡니다. 이러한 공백을 메우기 위해, 우리는 딥 리서치 환경에서 정보 검색(IR) 텍스트 랭킹 방법들에 대한 주요 연구 결과와 모범 사례 중 일부를 재현합니다. 특히 우리는 (i) 검색 단위(문서 대 문단), (ii) 파이프라인 구성(서로 다른 검색기, 재정렬기, 재정렬 깊이), (iii) 질의 특성(에이전트가 발행한 질의와 텍스트 랭커의 학습 질의 간 불일치)이라는 세 가지 관점에서 그 효과성을 검토합니다. 고정된 코퍼스를 가진 딥 리서치 데이터셋인 BrowseComp-Plus에서 실험을 수행하며, 다양한 설정 하에 2개의 오픈소스 에이전트, 5개의 검색기, 3개의 재정렬기를 평가합니다. 우리는 에이전트가 발행한 질의가 일반적으로 웹 검색 스타일의 구문(예: 따옴표로 묶인 정확일치)을 따르며, 어휘 기반, 학습된 희소, 다중 벡터 검색기에 유리함을 발견했습니다. 문단 수준 단위는 제한된 컨텍스트 윈도우 하에서 더 효율적이며, 어휘 검색에서 문서 길이 정규화의 어려움을 회피합니다. 재정렬은 매우 효과적이며, 에이전트가 발행한 질의를 자연어 질문으로 변환하는 것은 질의 불일치 문제를 상당히 완화합니다.
English
Deep research has emerged as an important task that aims to address hard queries through extensive open-web exploration. To tackle it, most prior work equips large language model (LLM)-based agents with opaque web search APIs, enabling agents to iteratively issue search queries, retrieve external evidence, and reason over it. Despite search's essential role in deep research, black-box web search APIs hinder systematic analysis of search components, leaving the behaviour of established text ranking methods in deep research largely unclear. To fill this gap, we reproduce a selection of key findings and best practices for IR text ranking methods in the deep research setting. In particular, we examine their effectiveness from three perspectives: (i) retrieval units (documents vs. passages), (ii) pipeline configurations (different retrievers, re-rankers, and re-ranking depths), and (iii) query characteristics (the mismatch between agent-issued queries and the training queries of text rankers). We perform experiments on BrowseComp-Plus, a deep research dataset with a fixed corpus, evaluating 2 open-source agents, 5 retrievers, and 3 re-rankers across diverse setups. We find that agent-issued queries typically follow web-search-style syntax (e.g., quoted exact matches), favouring lexical, learned sparse, and multi-vector retrievers; passage-level units are more efficient under limited context windows, and avoid the difficulties of document length normalisation in lexical retrieval; re-ranking is highly effective; translating agent-issued queries into natural-language questions significantly bridges the query mismatch.