FollowIR : Évaluation et enseignement des modèles de recherche d'information pour suivre des instructions

papers.abstract

Les modèles de langage de grande taille (LLM) modernes sont capables de suivre des instructions longues et complexes, permettant ainsi une diversité de tâches utilisateur. Cependant, bien que les modèles de recherche d'information (IR) utilisent les LLM comme fondement de leurs architectures, la quasi-totalité d'entre eux ne prennent encore que des requêtes en entrée, sans instructions. Pour les quelques modèles récents qui intègrent des instructions, il n'est pas clair comment ils les utilisent. Nous présentons notre ensemble de données FollowIR, qui comprend un benchmark rigoureux d'évaluation des instructions ainsi qu'un ensemble d'entraînement pour aider les modèles IR à mieux suivre les instructions du monde réel. FollowIR s'appuie sur la longue histoire des conférences TREC : de la même manière que TREC fournit aux annotateurs humains des instructions (également appelées narrations) pour déterminer la pertinence des documents, les modèles IR devraient être capables de comprendre et de décider de la pertinence en se basant sur ces instructions détaillées. Notre benchmark d'évaluation commence avec trois collections TREC profondément annotées et modifie les instructions des annotateurs, en ré-annotant les documents pertinents. Grâce à ce processus, nous pouvons mesurer dans quelle mesure les modèles IR suivent les instructions, à travers un nouveau cadre d'évaluation par paires. Nos résultats indiquent que les modèles de recherche existants échouent à utiliser correctement les instructions, les utilisant pour des mots-clés de base et peinant à comprendre les informations longues et détaillées. Cependant, nous montrons qu'il est possible pour les modèles IR d'apprendre à suivre des instructions complexes : notre nouveau modèle FollowIR-7B montre des améliorations significatives (plus de 13 %) après un fine-tuning sur notre ensemble d'entraînement.

English

Modern Large Language Models (LLMs) are capable of following long and complex instructions that enable a diverse amount of user tasks. However, despite Information Retrieval (IR) models using LLMs as the backbone of their architectures, nearly all of them still only take queries as input, with no instructions. For the handful of recent models that do take instructions, it's unclear how they use them. We introduce our dataset FollowIR, which contains a rigorous instruction evaluation benchmark as well as a training set for helping IR models learn to better follow real-world instructions. FollowIR builds off the long history of the TREC conferences: as TREC provides human annotators with instructions (also known as narratives) to determine document relevance, so should IR models be able to understand and decide relevance based on these detailed instructions. Our evaluation benchmark starts with three deeply judged TREC collections and alters the annotator instructions, re-annotating relevant documents. Through this process, we can measure how well IR models follow instructions, through a new pairwise evaluation framework. Our results indicate that existing retrieval models fail to correctly use instructions, using them for basic keywords and struggling to understand long-form information. However, we show that it is possible for IR models to learn to follow complex instructions: our new FollowIR-7B model has significant improvements (over 13%) after fine-tuning on our training set.

FollowIR : Évaluation et enseignement des modèles de recherche d'information pour suivre des instructions

FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions

papers.abstract

Support