FollowIR: Evaluierung und Lehre von Information Retrieval Modellen, um Anweisungen zu befolgen

papers.abstract

Moderne große Sprachmodelle (LLMs) sind in der Lage, langen und komplexen Anweisungen zu folgen, die eine vielfältige Menge von Benutzeraufgaben ermöglichen. Trotzdem verwenden Informationsabruf (IR) Modelle LLMs als Grundlage ihrer Architekturen, nehmen jedoch fast alle nur Anfragen als Eingabe entgegen, ohne Anweisungen. Bei den wenigen aktuellen Modellen, die Anweisungen entgegennehmen, ist unklar, wie sie diese verwenden. Wir stellen unseren Datensatz FollowIR vor, der einen strengen Anweisungsbewertungsmaßstab sowie ein Trainingset zur Unterstützung von IR-Modellen beim besseren Befolgen realer Anweisungen enthält. FollowIR baut auf der langen Geschichte der TREC-Konferenzen auf: Da TREC menschlichen Annotatoren Anweisungen (auch als Erzählungen bekannt) zur Bestimmung der Dokumentenrelevanz bereitstellt, sollten auch IR-Modelle in der Lage sein, anhand dieser detaillierten Anweisungen Relevanz zu verstehen und zu entscheiden. Unser Bewertungsmaßstab beginnt mit drei sorgfältig bewerteten TREC-Sammlungen und verändert die Annotator-Anweisungen, indem relevante Dokumente erneut annotiert werden. Durch diesen Prozess können wir messen, wie gut IR-Modelle Anweisungen befolgen, mithilfe eines neuen paarweisen Bewertungsrahmens. Unsere Ergebnisse zeigen, dass bestehende Abrufmodelle Anweisungen nicht korrekt verwenden, indem sie sie für grundlegende Schlüsselwörter verwenden und Schwierigkeiten haben, Informationen in Langform zu verstehen. Wir zeigen jedoch, dass es für IR-Modelle möglich ist, zu lernen, komplexe Anweisungen zu befolgen: Unser neues FollowIR-7B-Modell weist signifikante Verbesserungen (über 13%) nach Feinabstimmung anhand unseres Trainingsets auf.

English

Modern Large Language Models (LLMs) are capable of following long and complex instructions that enable a diverse amount of user tasks. However, despite Information Retrieval (IR) models using LLMs as the backbone of their architectures, nearly all of them still only take queries as input, with no instructions. For the handful of recent models that do take instructions, it's unclear how they use them. We introduce our dataset FollowIR, which contains a rigorous instruction evaluation benchmark as well as a training set for helping IR models learn to better follow real-world instructions. FollowIR builds off the long history of the TREC conferences: as TREC provides human annotators with instructions (also known as narratives) to determine document relevance, so should IR models be able to understand and decide relevance based on these detailed instructions. Our evaluation benchmark starts with three deeply judged TREC collections and alters the annotator instructions, re-annotating relevant documents. Through this process, we can measure how well IR models follow instructions, through a new pairwise evaluation framework. Our results indicate that existing retrieval models fail to correctly use instructions, using them for basic keywords and struggling to understand long-form information. However, we show that it is possible for IR models to learn to follow complex instructions: our new FollowIR-7B model has significant improvements (over 13%) after fine-tuning on our training set.

FollowIR: Evaluierung und Lehre von Information Retrieval Modellen, um Anweisungen zu befolgen

FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions

papers.abstract

Support