FollowIR : Évaluation et enseignement des modèles de recherche d'information pour suivre des instructions
FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions
March 22, 2024
Auteurs: Orion Weller, Benjamin Chang, Sean MacAvaney, Kyle Lo, Arman Cohan, Benjamin Van Durme, Dawn Lawrie, Luca Soldaini
cs.AI
Résumé
Les modèles de langage de grande taille (LLM) modernes sont capables de suivre des instructions longues et complexes, permettant ainsi une diversité de tâches utilisateur. Cependant, bien que les modèles de recherche d'information (IR) utilisent les LLM comme fondement de leurs architectures, la quasi-totalité d'entre eux ne prennent encore que des requêtes en entrée, sans instructions. Pour les quelques modèles récents qui intègrent des instructions, il n'est pas clair comment ils les utilisent. Nous présentons notre ensemble de données FollowIR, qui comprend un benchmark rigoureux d'évaluation des instructions ainsi qu'un ensemble d'entraînement pour aider les modèles IR à mieux suivre les instructions du monde réel. FollowIR s'appuie sur la longue histoire des conférences TREC : de la même manière que TREC fournit aux annotateurs humains des instructions (également appelées narrations) pour déterminer la pertinence des documents, les modèles IR devraient être capables de comprendre et de décider de la pertinence en se basant sur ces instructions détaillées. Notre benchmark d'évaluation commence avec trois collections TREC profondément annotées et modifie les instructions des annotateurs, en ré-annotant les documents pertinents. Grâce à ce processus, nous pouvons mesurer dans quelle mesure les modèles IR suivent les instructions, à travers un nouveau cadre d'évaluation par paires. Nos résultats indiquent que les modèles de recherche existants échouent à utiliser correctement les instructions, les utilisant pour des mots-clés de base et peinant à comprendre les informations longues et détaillées. Cependant, nous montrons qu'il est possible pour les modèles IR d'apprendre à suivre des instructions complexes : notre nouveau modèle FollowIR-7B montre des améliorations significatives (plus de 13 %) après un fine-tuning sur notre ensemble d'entraînement.
English
Modern Large Language Models (LLMs) are capable of following long and complex
instructions that enable a diverse amount of user tasks. However, despite
Information Retrieval (IR) models using LLMs as the backbone of their
architectures, nearly all of them still only take queries as input, with no
instructions. For the handful of recent models that do take instructions, it's
unclear how they use them. We introduce our dataset FollowIR, which contains a
rigorous instruction evaluation benchmark as well as a training set for helping
IR models learn to better follow real-world instructions. FollowIR builds off
the long history of the TREC conferences: as TREC provides human annotators
with instructions (also known as narratives) to determine document relevance,
so should IR models be able to understand and decide relevance based on these
detailed instructions. Our evaluation benchmark starts with three deeply judged
TREC collections and alters the annotator instructions, re-annotating relevant
documents. Through this process, we can measure how well IR models follow
instructions, through a new pairwise evaluation framework. Our results indicate
that existing retrieval models fail to correctly use instructions, using them
for basic keywords and struggling to understand long-form information. However,
we show that it is possible for IR models to learn to follow complex
instructions: our new FollowIR-7B model has significant improvements (over 13%)
after fine-tuning on our training set.Summary
AI-Generated Summary