IFIR : Un benchmark complet pour l'évaluation du suivi d'instructions dans la recherche d'information en domaine expert
IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval
March 6, 2025
Auteurs: Tingyu Song, Guo Gan, Mingsheng Shang, Yilun Zhao
cs.AI
Résumé
Nous présentons IFIR, le premier benchmark complet conçu pour évaluer la recherche d'information (IR) guidée par des instructions dans des domaines experts. IFIR comprend 2 426 exemples de haute qualité et couvre huit sous-ensembles répartis dans quatre domaines spécialisés : finance, droit, santé et littérature scientifique. Chaque sous-ensemble aborde une ou plusieurs tâches de recherche spécifiques au domaine, reproduisant des scénarios réels où des instructions personnalisées sont cruciales. IFIR permet une analyse détaillée des capacités de recherche guidée par des instructions en intégrant des instructions à différents niveaux de complexité. Nous proposons également une nouvelle méthode d'évaluation basée sur des LLM (modèles de langage de grande taille) pour fournir une évaluation plus précise et fiable des performances des modèles à suivre les instructions. À travers des expériences approfondies sur 15 modèles de recherche de pointe, y compris ceux basés sur des LLM, nos résultats révèlent que les modèles actuels rencontrent des difficultés importantes à suivre efficacement des instructions complexes et spécifiques à un domaine. Nous fournissons en outre des analyses approfondies pour mettre en lumière ces limitations, offrant ainsi des insights précieux pour guider les avancées futures dans le développement de systèmes de recherche.
English
We introduce IFIR, the first comprehensive benchmark designed to evaluate
instruction-following information retrieval (IR) in expert domains. IFIR
includes 2,426 high-quality examples and covers eight subsets across four
specialized domains: finance, law, healthcare, and science literature. Each
subset addresses one or more domain-specific retrieval tasks, replicating
real-world scenarios where customized instructions are critical. IFIR enables a
detailed analysis of instruction-following retrieval capabilities by
incorporating instructions at different levels of complexity. We also propose a
novel LLM-based evaluation method to provide a more precise and reliable
assessment of model performance in following instructions. Through extensive
experiments on 15 frontier retrieval models, including those based on LLMs, our
results reveal that current models face significant challenges in effectively
following complex, domain-specific instructions. We further provide in-depth
analyses to highlight these limitations, offering valuable insights to guide
future advancements in retriever development.Summary
AI-Generated Summary