IFIR: Un punto de referencia integral para evaluar el seguimiento de instrucciones en la recuperación de información de dominio experto
IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval
March 6, 2025
Autores: Tingyu Song, Guo Gan, Mingsheng Shang, Yilun Zhao
cs.AI
Resumen
Presentamos IFIR, el primer punto de referencia integral diseñado para evaluar la recuperación de información basada en instrucciones (IR, por sus siglas en inglés) en dominios expertos. IFIR incluye 2,426 ejemplos de alta calidad y abarca ocho subconjuntos en cuatro dominios especializados: finanzas, derecho, atención médica y literatura científica. Cada subconjunto aborda una o más tareas de recuperación específicas del dominio, replicando escenarios del mundo real donde las instrucciones personalizadas son cruciales. IFIR permite un análisis detallado de las capacidades de recuperación basadas en instrucciones al incorporar instrucciones con diferentes niveles de complejidad. También proponemos un nuevo método de evaluación basado en modelos de lenguaje grandes (LLM) para proporcionar una evaluación más precisa y confiable del rendimiento de los modelos al seguir instrucciones. A través de experimentos exhaustivos en 15 modelos de recuperación de vanguardia, incluidos aquellos basados en LLM, nuestros resultados revelan que los modelos actuales enfrentan desafíos significativos para seguir de manera efectiva instrucciones complejas y específicas del dominio. Además, ofrecemos análisis en profundidad para resaltar estas limitaciones, proporcionando ideas valiosas para guiar futuros avances en el desarrollo de sistemas de recuperación.
English
We introduce IFIR, the first comprehensive benchmark designed to evaluate
instruction-following information retrieval (IR) in expert domains. IFIR
includes 2,426 high-quality examples and covers eight subsets across four
specialized domains: finance, law, healthcare, and science literature. Each
subset addresses one or more domain-specific retrieval tasks, replicating
real-world scenarios where customized instructions are critical. IFIR enables a
detailed analysis of instruction-following retrieval capabilities by
incorporating instructions at different levels of complexity. We also propose a
novel LLM-based evaluation method to provide a more precise and reliable
assessment of model performance in following instructions. Through extensive
experiments on 15 frontier retrieval models, including those based on LLMs, our
results reveal that current models face significant challenges in effectively
following complex, domain-specific instructions. We further provide in-depth
analyses to highlight these limitations, offering valuable insights to guide
future advancements in retriever development.Summary
AI-Generated Summary