ChatPaper.aiChatPaper

IFIR: Um Benchmark Abrangente para Avaliação de Seguimento de Instruções em Recuperação de Informação em Domínios Especializados

IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval

March 6, 2025
Autores: Tingyu Song, Guo Gan, Mingsheng Shang, Yilun Zhao
cs.AI

Resumo

Apresentamos o IFIR, o primeiro benchmark abrangente projetado para avaliar a recuperação de informações baseada em instruções (IR) em domínios especializados. O IFIR inclui 2.426 exemplos de alta qualidade e abrange oito subconjuntos em quatro domínios específicos: finanças, direito, saúde e literatura científica. Cada subconjunto aborda uma ou mais tarefas de recuperação específicas do domínio, replicando cenários do mundo real onde instruções personalizadas são essenciais. O IFIR permite uma análise detalhada das capacidades de recuperação baseada em instruções ao incorporar instruções em diferentes níveis de complexidade. Também propomos um novo método de avaliação baseado em LLM para fornecer uma avaliação mais precisa e confiável do desempenho dos modelos em seguir instruções. Por meio de experimentos extensos em 15 modelos de recuperação de ponta, incluindo aqueles baseados em LLMs, nossos resultados revelam que os modelos atuais enfrentam desafios significativos para seguir efetivamente instruções complexas e específicas do domínio. Além disso, fornecemos análises aprofundadas para destacar essas limitações, oferecendo insights valiosos para orientar avanços futuros no desenvolvimento de recuperadores.
English
We introduce IFIR, the first comprehensive benchmark designed to evaluate instruction-following information retrieval (IR) in expert domains. IFIR includes 2,426 high-quality examples and covers eight subsets across four specialized domains: finance, law, healthcare, and science literature. Each subset addresses one or more domain-specific retrieval tasks, replicating real-world scenarios where customized instructions are critical. IFIR enables a detailed analysis of instruction-following retrieval capabilities by incorporating instructions at different levels of complexity. We also propose a novel LLM-based evaluation method to provide a more precise and reliable assessment of model performance in following instructions. Through extensive experiments on 15 frontier retrieval models, including those based on LLMs, our results reveal that current models face significant challenges in effectively following complex, domain-specific instructions. We further provide in-depth analyses to highlight these limitations, offering valuable insights to guide future advancements in retriever development.

Summary

AI-Generated Summary

PDF212March 7, 2025