FollowIR: Evaluierung und Lehre von Information Retrieval Modellen, um Anweisungen zu befolgen
FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions
March 22, 2024
Autoren: Orion Weller, Benjamin Chang, Sean MacAvaney, Kyle Lo, Arman Cohan, Benjamin Van Durme, Dawn Lawrie, Luca Soldaini
cs.AI
Zusammenfassung
Moderne große Sprachmodelle (LLMs) sind in der Lage, langen und komplexen Anweisungen zu folgen, die eine vielfältige Menge von Benutzeraufgaben ermöglichen. Trotzdem verwenden Informationsabruf (IR) Modelle LLMs als Grundlage ihrer Architekturen, nehmen jedoch fast alle nur Anfragen als Eingabe entgegen, ohne Anweisungen. Bei den wenigen aktuellen Modellen, die Anweisungen entgegennehmen, ist unklar, wie sie diese verwenden. Wir stellen unseren Datensatz FollowIR vor, der einen strengen Anweisungsbewertungsmaßstab sowie ein Trainingset zur Unterstützung von IR-Modellen beim besseren Befolgen realer Anweisungen enthält. FollowIR baut auf der langen Geschichte der TREC-Konferenzen auf: Da TREC menschlichen Annotatoren Anweisungen (auch als Erzählungen bekannt) zur Bestimmung der Dokumentenrelevanz bereitstellt, sollten auch IR-Modelle in der Lage sein, anhand dieser detaillierten Anweisungen Relevanz zu verstehen und zu entscheiden. Unser Bewertungsmaßstab beginnt mit drei sorgfältig bewerteten TREC-Sammlungen und verändert die Annotator-Anweisungen, indem relevante Dokumente erneut annotiert werden. Durch diesen Prozess können wir messen, wie gut IR-Modelle Anweisungen befolgen, mithilfe eines neuen paarweisen Bewertungsrahmens. Unsere Ergebnisse zeigen, dass bestehende Abrufmodelle Anweisungen nicht korrekt verwenden, indem sie sie für grundlegende Schlüsselwörter verwenden und Schwierigkeiten haben, Informationen in Langform zu verstehen. Wir zeigen jedoch, dass es für IR-Modelle möglich ist, zu lernen, komplexe Anweisungen zu befolgen: Unser neues FollowIR-7B-Modell weist signifikante Verbesserungen (über 13%) nach Feinabstimmung anhand unseres Trainingsets auf.
English
Modern Large Language Models (LLMs) are capable of following long and complex
instructions that enable a diverse amount of user tasks. However, despite
Information Retrieval (IR) models using LLMs as the backbone of their
architectures, nearly all of them still only take queries as input, with no
instructions. For the handful of recent models that do take instructions, it's
unclear how they use them. We introduce our dataset FollowIR, which contains a
rigorous instruction evaluation benchmark as well as a training set for helping
IR models learn to better follow real-world instructions. FollowIR builds off
the long history of the TREC conferences: as TREC provides human annotators
with instructions (also known as narratives) to determine document relevance,
so should IR models be able to understand and decide relevance based on these
detailed instructions. Our evaluation benchmark starts with three deeply judged
TREC collections and alters the annotator instructions, re-annotating relevant
documents. Through this process, we can measure how well IR models follow
instructions, through a new pairwise evaluation framework. Our results indicate
that existing retrieval models fail to correctly use instructions, using them
for basic keywords and struggling to understand long-form information. However,
we show that it is possible for IR models to learn to follow complex
instructions: our new FollowIR-7B model has significant improvements (over 13%)
after fine-tuning on our training set.Summary
AI-Generated Summary