FollowIR: Het evalueren en aanleren van informatiezoekmodellen om instructies te volgen
FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions
March 22, 2024
Auteurs: Orion Weller, Benjamin Chang, Sean MacAvaney, Kyle Lo, Arman Cohan, Benjamin Van Durme, Dawn Lawrie, Luca Soldaini
cs.AI
Samenvatting
Moderne Large Language Models (LLMs) zijn in staat om lange en complexe instructies te volgen die een breed scala aan gebruikers taken mogelijk maken. Echter, ondanks het feit dat Information Retrieval (IR) modellen LLMs gebruiken als de kern van hun architectuur, nemen bijna allemaal nog steeds alleen zoekopdrachten als invoer, zonder instructies. Voor de handvol recente modellen die wel instructies accepteren, is het onduidelijk hoe ze deze gebruiken. Wij introduceren onze dataset FollowIR, die een rigoureus evaluatiebenchmark voor instructies bevat, evenals een trainingsset om IR-modellen te helpen beter real-world instructies te volgen. FollowIR bouwt voort op de lange geschiedenis van de TREC-conferenties: aangezien TREC menselijke annotatoren voorziet van instructies (ook wel narratieven genoemd) om de relevantie van documenten te bepalen, zouden IR-modellen ook in staat moeten zijn om deze gedetailleerde instructies te begrijpen en op basis daarvan relevantie te beslissen. Onze evaluatiebenchmark begint met drie diep beoordeelde TREC-collecties en verandert de instructies van de annotators, waarbij relevante documenten opnieuw worden geannoteerd. Door dit proces kunnen we meten hoe goed IR-modellen instructies volgen, via een nieuw paarsgewijs evaluatiekader. Onze resultaten geven aan dat bestaande retrievemodellen er niet in slagen om instructies correct te gebruiken, waarbij ze deze gebruiken voor basiszoekwoorden en moeite hebben met het begrijpen van langere informatie. Echter, we tonen aan dat het mogelijk is voor IR-modellen om complexe instructies te leren volgen: ons nieuwe FollowIR-7B-model laat significante verbeteringen zien (meer dan 13%) na fine-tuning op onze trainingsset.
English
Modern Large Language Models (LLMs) are capable of following long and complex
instructions that enable a diverse amount of user tasks. However, despite
Information Retrieval (IR) models using LLMs as the backbone of their
architectures, nearly all of them still only take queries as input, with no
instructions. For the handful of recent models that do take instructions, it's
unclear how they use them. We introduce our dataset FollowIR, which contains a
rigorous instruction evaluation benchmark as well as a training set for helping
IR models learn to better follow real-world instructions. FollowIR builds off
the long history of the TREC conferences: as TREC provides human annotators
with instructions (also known as narratives) to determine document relevance,
so should IR models be able to understand and decide relevance based on these
detailed instructions. Our evaluation benchmark starts with three deeply judged
TREC collections and alters the annotator instructions, re-annotating relevant
documents. Through this process, we can measure how well IR models follow
instructions, through a new pairwise evaluation framework. Our results indicate
that existing retrieval models fail to correctly use instructions, using them
for basic keywords and struggling to understand long-form information. However,
we show that it is possible for IR models to learn to follow complex
instructions: our new FollowIR-7B model has significant improvements (over 13%)
after fine-tuning on our training set.