IFIR: Um Benchmark Abrangente para Avaliação de Seguimento de Instruções em Recuperação de Informação em Domínios Especializados
IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval
March 6, 2025
Autores: Tingyu Song, Guo Gan, Mingsheng Shang, Yilun Zhao
cs.AI
Resumo
Apresentamos o IFIR, o primeiro benchmark abrangente projetado para avaliar a recuperação de informações baseada em instruções (IR) em domínios especializados. O IFIR inclui 2.426 exemplos de alta qualidade e abrange oito subconjuntos em quatro domínios específicos: finanças, direito, saúde e literatura científica. Cada subconjunto aborda uma ou mais tarefas de recuperação específicas do domínio, replicando cenários do mundo real onde instruções personalizadas são essenciais. O IFIR permite uma análise detalhada das capacidades de recuperação baseada em instruções ao incorporar instruções em diferentes níveis de complexidade. Também propomos um novo método de avaliação baseado em LLM para fornecer uma avaliação mais precisa e confiável do desempenho dos modelos em seguir instruções. Por meio de experimentos extensos em 15 modelos de recuperação de ponta, incluindo aqueles baseados em LLMs, nossos resultados revelam que os modelos atuais enfrentam desafios significativos para seguir efetivamente instruções complexas e específicas do domínio. Além disso, fornecemos análises aprofundadas para destacar essas limitações, oferecendo insights valiosos para orientar avanços futuros no desenvolvimento de recuperadores.
English
We introduce IFIR, the first comprehensive benchmark designed to evaluate
instruction-following information retrieval (IR) in expert domains. IFIR
includes 2,426 high-quality examples and covers eight subsets across four
specialized domains: finance, law, healthcare, and science literature. Each
subset addresses one or more domain-specific retrieval tasks, replicating
real-world scenarios where customized instructions are critical. IFIR enables a
detailed analysis of instruction-following retrieval capabilities by
incorporating instructions at different levels of complexity. We also propose a
novel LLM-based evaluation method to provide a more precise and reliable
assessment of model performance in following instructions. Through extensive
experiments on 15 frontier retrieval models, including those based on LLMs, our
results reveal that current models face significant challenges in effectively
following complex, domain-specific instructions. We further provide in-depth
analyses to highlight these limitations, offering valuable insights to guide
future advancements in retriever development.Summary
AI-Generated Summary