ChatPaper.aiChatPaper

IFIR: Ein umfassender Benchmark zur Bewertung der Befolgung von Anweisungen in der Expertenbereichs-Informationsrecherche

IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval

March 6, 2025
Autoren: Tingyu Song, Guo Gan, Mingsheng Shang, Yilun Zhao
cs.AI

Zusammenfassung

Wir stellen IFIR vor, den ersten umfassenden Benchmark zur Bewertung von instruktionsbasiertem Information Retrieval (IR) in Expertenbereichen. IFIR umfasst 2.426 hochwertige Beispiele und deckt acht Teilbereiche in vier spezialisierten Domänen ab: Finanzen, Recht, Gesundheitswesen und wissenschaftliche Literatur. Jeder Teilbereich behandelt eine oder mehrere domänenspezifische Retrieval-Aufgaben und repliziert reale Szenarien, in denen maßgeschneiderte Anweisungen entscheidend sind. IFIR ermöglicht eine detaillierte Analyse der Fähigkeiten zum instruktionsbasierten Retrieval, indem Anweisungen auf unterschiedlichen Komplexitätsstufen integriert werden. Wir schlagen zudem eine neuartige, auf LLMs basierende Evaluierungsmethode vor, um eine präzisere und zuverlässigere Bewertung der Modellleistung bei der Befolgung von Anweisungen zu ermöglichen. Durch umfangreiche Experimente mit 15 führenden Retrieval-Modellen, einschließlich solcher, die auf LLMs basieren, zeigen unsere Ergebnisse, dass aktuelle Modelle erhebliche Schwierigkeiten haben, komplexe, domänenspezifische Anweisungen effektiv zu befolgen. Wir liefern weiterführende Analysen, um diese Einschränkungen zu verdeutlichen, und bieten wertvolle Einblicke, um zukünftige Fortschritte in der Entwicklung von Retrieval-Systemen zu leiten.
English
We introduce IFIR, the first comprehensive benchmark designed to evaluate instruction-following information retrieval (IR) in expert domains. IFIR includes 2,426 high-quality examples and covers eight subsets across four specialized domains: finance, law, healthcare, and science literature. Each subset addresses one or more domain-specific retrieval tasks, replicating real-world scenarios where customized instructions are critical. IFIR enables a detailed analysis of instruction-following retrieval capabilities by incorporating instructions at different levels of complexity. We also propose a novel LLM-based evaluation method to provide a more precise and reliable assessment of model performance in following instructions. Through extensive experiments on 15 frontier retrieval models, including those based on LLMs, our results reveal that current models face significant challenges in effectively following complex, domain-specific instructions. We further provide in-depth analyses to highlight these limitations, offering valuable insights to guide future advancements in retriever development.

Summary

AI-Generated Summary

PDF212March 7, 2025