IFIR: Un Benchmark Completo per la Valutazione del Rispetto delle Istruzioni nel Recupero delle Informazioni in Domini Specialistici
IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval
March 6, 2025
Autori: Tingyu Song, Guo Gan, Mingsheng Shang, Yilun Zhao
cs.AI
Abstract
Presentiamo IFIR, il primo benchmark completo progettato per valutare il recupero delle informazioni basato su istruzioni (IR) in domini specialistici. IFIR include 2.426 esempi di alta qualità e copre otto sottoinsiemi in quattro domini specializzati: finanza, diritto, sanità e letteratura scientifica. Ogni sottoinsieme affronta uno o più compiti di recupero specifici del dominio, replicando scenari reali in cui istruzioni personalizzate sono cruciali. IFIR consente un'analisi dettagliata delle capacità di recupero basato su istruzioni incorporando istruzioni a diversi livelli di complessità. Proponiamo inoltre un nuovo metodo di valutazione basato su LLM per fornire una valutazione più precisa e affidabile delle prestazioni del modello nel seguire le istruzioni. Attraverso esperimenti estesi su 15 modelli di recupero all'avanguardia, inclusi quelli basati su LLM, i nostri risultati rivelano che i modelli attuali affrontano sfide significative nel seguire efficacemente istruzioni complesse e specifiche del dominio. Forniamo ulteriori analisi approfondite per evidenziare queste limitazioni, offrendo spunti preziosi per guidare i futuri progressi nello sviluppo dei sistemi di recupero.
English
We introduce IFIR, the first comprehensive benchmark designed to evaluate
instruction-following information retrieval (IR) in expert domains. IFIR
includes 2,426 high-quality examples and covers eight subsets across four
specialized domains: finance, law, healthcare, and science literature. Each
subset addresses one or more domain-specific retrieval tasks, replicating
real-world scenarios where customized instructions are critical. IFIR enables a
detailed analysis of instruction-following retrieval capabilities by
incorporating instructions at different levels of complexity. We also propose a
novel LLM-based evaluation method to provide a more precise and reliable
assessment of model performance in following instructions. Through extensive
experiments on 15 frontier retrieval models, including those based on LLMs, our
results reveal that current models face significant challenges in effectively
following complex, domain-specific instructions. We further provide in-depth
analyses to highlight these limitations, offering valuable insights to guide
future advancements in retriever development.Summary
AI-Generated Summary