추론 집약적 검색 재고하기: 에이전트형 검색 시스템에서 검색기의 평가 및 발전 방향
Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems
May 5, 2026
저자: Yilun Zhao, Jinbiao Wei, Tingyu Song, Siyue Zhang, Chen Zhao, Arman Cohan
cs.AI
초록
추론 집약적 정보 검색은 단순히 주제 유사성을 매칭하는 것을 넘어 하위 추론을 지지하는 증거를 발굴하는 것을 목표로 합니다. 이러한 능력은 반복적인 탐색과 종합 과정에서 보완적 증거를 제공해야 하는 에이전트형 검색 시스템에서 점점 더 중요해지고 있습니다. 그러나 기존 연구는 평가와 훈련 측면에서 모두 한계를 보입니다: BRIGHT와 같은 벤치마크는 제한된 골드 세트를 제공하고 검색기를 고립적으로 평가하는 반면, 합성 훈련 코퍼스는 단일 문장 관련성 최적화에 치중하여 증거 포트폴리오 구성을 소홀히 하는 경향이 있습니다. 본 연구에서는 전문가 주석이 추가된 벤치마크인 BRIGHT-Pro를 소개합니다. 이는 각 쿼리를 다중 측면 골드 증거로 확장하고 정적 및 에이전트형 검색 프로토콜 하에서 검색기를 평가합니다. 또한 측면 분해 합성 코퍼스인 RTriever-Synth를 구축하여 보완적 긍정 예시와 긍정 조건부 난이도 부정 예시를 생성하며, 이를 통해 Qwen3-Embedding-4B 기반의 RTriever-4B를 LoRA 방식으로 미세 조정합니다. 어휘 기반, 범용, 추론 집약적 검색기를 대상으로 한 실험 결과, 측면 인식 및 에이전트형 평가는 표준 지표로는 드러나지 않는 동작을 포착하는 반면, RTriever-4B는 기본 모델 대비 성능이 크게 향상됨을 확인했습니다.
English
Reasoning-intensive retrieval aims to surface evidence that supports downstream reasoning rather than merely matching topical similarity. This capability is increasingly important for agentic search systems, where retrievers must provide complementary evidence across iterative search and synthesis. However, existing work remains limited on both evaluation and training: benchmarks such as BRIGHT provide narrow gold sets and evaluate retrievers in isolation, while synthetic training corpora often optimize single-passage relevance rather than evidence portfolio construction. We introduce BRIGHT-Pro, an expert-annotated benchmark that expands each query with multi-aspect gold evidence and evaluates retrievers under both static and agentic search protocols. We further construct RTriever-Synth, an aspect-decomposed synthetic corpus that generates complementary positives and positive-conditioned hard negatives, and use it to LoRA fine-tune RTriever-4B from Qwen3-Embedding-4B. Experiments across lexical, general-purpose, and reasoning-intensive retrievers show that aspect-aware and agentic evaluation expose behaviors hidden by standard metrics, while RTriever-4B substantially improves over its base model.