ChatPaper.aiChatPaper

FollowIR: Het evalueren en aanleren van informatiezoekmodellen om instructies te volgen

FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions

March 22, 2024
Auteurs: Orion Weller, Benjamin Chang, Sean MacAvaney, Kyle Lo, Arman Cohan, Benjamin Van Durme, Dawn Lawrie, Luca Soldaini
cs.AI

Samenvatting

Moderne Large Language Models (LLMs) zijn in staat om lange en complexe instructies te volgen die een breed scala aan gebruikers taken mogelijk maken. Echter, ondanks het feit dat Information Retrieval (IR) modellen LLMs gebruiken als de kern van hun architectuur, nemen bijna allemaal nog steeds alleen zoekopdrachten als invoer, zonder instructies. Voor de handvol recente modellen die wel instructies accepteren, is het onduidelijk hoe ze deze gebruiken. Wij introduceren onze dataset FollowIR, die een rigoureus evaluatiebenchmark voor instructies bevat, evenals een trainingsset om IR-modellen te helpen beter real-world instructies te volgen. FollowIR bouwt voort op de lange geschiedenis van de TREC-conferenties: aangezien TREC menselijke annotatoren voorziet van instructies (ook wel narratieven genoemd) om de relevantie van documenten te bepalen, zouden IR-modellen ook in staat moeten zijn om deze gedetailleerde instructies te begrijpen en op basis daarvan relevantie te beslissen. Onze evaluatiebenchmark begint met drie diep beoordeelde TREC-collecties en verandert de instructies van de annotators, waarbij relevante documenten opnieuw worden geannoteerd. Door dit proces kunnen we meten hoe goed IR-modellen instructies volgen, via een nieuw paarsgewijs evaluatiekader. Onze resultaten geven aan dat bestaande retrievemodellen er niet in slagen om instructies correct te gebruiken, waarbij ze deze gebruiken voor basiszoekwoorden en moeite hebben met het begrijpen van langere informatie. Echter, we tonen aan dat het mogelijk is voor IR-modellen om complexe instructies te leren volgen: ons nieuwe FollowIR-7B-model laat significante verbeteringen zien (meer dan 13%) na fine-tuning op onze trainingsset.
English
Modern Large Language Models (LLMs) are capable of following long and complex instructions that enable a diverse amount of user tasks. However, despite Information Retrieval (IR) models using LLMs as the backbone of their architectures, nearly all of them still only take queries as input, with no instructions. For the handful of recent models that do take instructions, it's unclear how they use them. We introduce our dataset FollowIR, which contains a rigorous instruction evaluation benchmark as well as a training set for helping IR models learn to better follow real-world instructions. FollowIR builds off the long history of the TREC conferences: as TREC provides human annotators with instructions (also known as narratives) to determine document relevance, so should IR models be able to understand and decide relevance based on these detailed instructions. Our evaluation benchmark starts with three deeply judged TREC collections and alters the annotator instructions, re-annotating relevant documents. Through this process, we can measure how well IR models follow instructions, through a new pairwise evaluation framework. Our results indicate that existing retrieval models fail to correctly use instructions, using them for basic keywords and struggling to understand long-form information. However, we show that it is possible for IR models to learn to follow complex instructions: our new FollowIR-7B model has significant improvements (over 13%) after fine-tuning on our training set.
PDF111February 8, 2026