IFIR: Een Uitgebreide Benchmark voor het Evalueren van Instructievolging in Expert-Domein Informatie Retrieval
IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval
March 6, 2025
Auteurs: Tingyu Song, Guo Gan, Mingsheng Shang, Yilun Zhao
cs.AI
Samenvatting
We introduceren IFIR, de eerste uitgebreide benchmark die is ontworpen om instructievolgend informatiezoeken (IR) in expertgebieden te evalueren. IFIR omvat 2.426 hoogwaardige voorbeelden en bestrijkt acht subsets binnen vier gespecialiseerde domeinen: financiën, recht, gezondheidszorg en wetenschappelijke literatuur. Elke subset behandelt een of meer domeinspecifieke zoektaken, waarbij realistische scenario's worden nagebootst waarin aangepaste instructies cruciaal zijn. IFIR maakt een gedetailleerde analyse mogelijk van de mogelijkheden voor instructievolgend zoeken door instructies op verschillende complexiteitsniveaus te integreren. We stellen ook een nieuwe, op LLM gebaseerde evaluatiemethode voor om een nauwkeurigere en betrouwbaardere beoordeling te geven van de prestaties van modellen in het volgen van instructies. Door uitgebreide experimenten uit te voeren op 15 geavanceerde zoekmodellen, waaronder die gebaseerd op LLM's, tonen onze resultaten aan dat huidige modellen aanzienlijke uitdagingen ondervinden bij het effectief volgen van complexe, domeinspecifieke instructies. We bieden verder diepgaande analyses om deze beperkingen te benadrukken, wat waardevolle inzichten biedt om toekomstige vooruitgang in de ontwikkeling van zoeksystemen te begeleiden.
English
We introduce IFIR, the first comprehensive benchmark designed to evaluate
instruction-following information retrieval (IR) in expert domains. IFIR
includes 2,426 high-quality examples and covers eight subsets across four
specialized domains: finance, law, healthcare, and science literature. Each
subset addresses one or more domain-specific retrieval tasks, replicating
real-world scenarios where customized instructions are critical. IFIR enables a
detailed analysis of instruction-following retrieval capabilities by
incorporating instructions at different levels of complexity. We also propose a
novel LLM-based evaluation method to provide a more precise and reliable
assessment of model performance in following instructions. Through extensive
experiments on 15 frontier retrieval models, including those based on LLMs, our
results reveal that current models face significant challenges in effectively
following complex, domain-specific instructions. We further provide in-depth
analyses to highlight these limitations, offering valuable insights to guide
future advancements in retriever development.