FollowIR: Avaliando e Ensinando Modelos de Recuperação de Informação a Seguir Instruções

Resumo

Os modernos Modelos de Linguagem de Grande Escala (LLMs) são capazes de seguir instruções longas e complexas que permitem uma ampla variedade de tarefas do usuário. No entanto, apesar dos modelos de Recuperação de Informação (IR) utilizarem LLMs como a base de suas arquiteturas, quase todos ainda recebem apenas consultas como entrada, sem instruções. Para os poucos modelos recentes que de fato recebem instruções, não está claro como eles as utilizam. Apresentamos nosso conjunto de dados FollowIR, que contém um rigoroso benchmark de avaliação de instruções, bem como um conjunto de treinamento para ajudar modelos de IR a aprender a seguir melhor instruções do mundo real. O FollowIR se baseia na longa história das conferências TREC: assim como o TREC fornece instruções (também conhecidas como narrativas) para anotadores humanos determinarem a relevância de documentos, os modelos de IR também devem ser capazes de entender e decidir a relevância com base nessas instruções detalhadas. Nosso benchmark de avaliação começa com três coleções TREC profundamente julgadas e altera as instruções dos anotadores, reanotando documentos relevantes. Por meio desse processo, podemos medir o quão bem os modelos de IR seguem instruções, utilizando um novo framework de avaliação pareada. Nossos resultados indicam que os modelos de recuperação existentes falham em utilizar corretamente as instruções, limitando-se a palavras-chave básicas e tendo dificuldade em entender informações de formato longo. No entanto, mostramos que é possível para modelos de IR aprenderem a seguir instruções complexas: nosso novo modelo FollowIR-7B apresenta melhorias significativas (mais de 13%) após o ajuste fino em nosso conjunto de treinamento.

English

Modern Large Language Models (LLMs) are capable of following long and complex instructions that enable a diverse amount of user tasks. However, despite Information Retrieval (IR) models using LLMs as the backbone of their architectures, nearly all of them still only take queries as input, with no instructions. For the handful of recent models that do take instructions, it's unclear how they use them. We introduce our dataset FollowIR, which contains a rigorous instruction evaluation benchmark as well as a training set for helping IR models learn to better follow real-world instructions. FollowIR builds off the long history of the TREC conferences: as TREC provides human annotators with instructions (also known as narratives) to determine document relevance, so should IR models be able to understand and decide relevance based on these detailed instructions. Our evaluation benchmark starts with three deeply judged TREC collections and alters the annotator instructions, re-annotating relevant documents. Through this process, we can measure how well IR models follow instructions, through a new pairwise evaluation framework. Our results indicate that existing retrieval models fail to correctly use instructions, using them for basic keywords and struggling to understand long-form information. However, we show that it is possible for IR models to learn to follow complex instructions: our new FollowIR-7B model has significant improvements (over 13%) after fine-tuning on our training set.

FollowIR: Avaliando e Ensinando Modelos de Recuperação de Informação a Seguir Instruções

FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions

Resumo

Support