IFIR: 전문 도메인 정보 검색에서의 명령어 수행 능력을 평가하기 위한 포괄적 벤치마크
IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval
March 6, 2025
저자: Tingyu Song, Guo Gan, Mingsheng Shang, Yilun Zhao
cs.AI
초록
우리는 전문 분야에서의 명령어 기반 정보 검색(Instruction-Following Information Retrieval, IR)을 평가하기 위해 설계된 첫 번째 포괄적인 벤치마크인 IFIR를 소개한다. IFIR는 2,426개의 고품질 예시를 포함하며, 금융, 법률, 의료, 과학 문헌 등 네 가지 전문 분야에 걸친 여덟 개의 하위 집합을 다룬다. 각 하위 집합은 하나 이상의 도메인 특화 검색 작업을 다루며, 맞춤형 명령어가 중요한 실제 시나리오를 재현한다. IFIR는 다양한 복잡도 수준의 명령어를 통합함으로써 명령어 기반 검색 능력에 대한 세부적인 분석을 가능하게 한다. 또한, 우리는 명령어를 따르는 모델 성능을 보다 정확하고 신뢰할 수 있게 평가하기 위한 새로운 LLM 기반 평가 방법을 제안한다. LLM 기반 모델을 포함한 15개의 최신 검색 모델에 대한 광범위한 실험을 통해, 현재의 모델들이 복잡하고 도메인 특화된 명령어를 효과적으로 따르는 데 상당한 어려움을 겪고 있음을 확인했다. 우리는 이러한 한계를 부각시키기 위한 심층 분석을 추가로 제공함으로써, 향후 검색기 개발을 위한 가치 있는 통찰을 제시한다.
English
We introduce IFIR, the first comprehensive benchmark designed to evaluate
instruction-following information retrieval (IR) in expert domains. IFIR
includes 2,426 high-quality examples and covers eight subsets across four
specialized domains: finance, law, healthcare, and science literature. Each
subset addresses one or more domain-specific retrieval tasks, replicating
real-world scenarios where customized instructions are critical. IFIR enables a
detailed analysis of instruction-following retrieval capabilities by
incorporating instructions at different levels of complexity. We also propose a
novel LLM-based evaluation method to provide a more precise and reliable
assessment of model performance in following instructions. Through extensive
experiments on 15 frontier retrieval models, including those based on LLMs, our
results reveal that current models face significant challenges in effectively
following complex, domain-specific instructions. We further provide in-depth
analyses to highlight these limitations, offering valuable insights to guide
future advancements in retriever development.Summary
AI-Generated Summary