FollowIR: Avaliando e Ensinando Modelos de Recuperação de Informação a Seguir Instruções
FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions
March 22, 2024
Autores: Orion Weller, Benjamin Chang, Sean MacAvaney, Kyle Lo, Arman Cohan, Benjamin Van Durme, Dawn Lawrie, Luca Soldaini
cs.AI
Resumo
Os modernos Modelos de Linguagem de Grande Escala (LLMs) são capazes de seguir instruções longas e complexas que permitem uma ampla variedade de tarefas do usuário. No entanto, apesar dos modelos de Recuperação de Informação (IR) utilizarem LLMs como a base de suas arquiteturas, quase todos ainda recebem apenas consultas como entrada, sem instruções. Para os poucos modelos recentes que de fato recebem instruções, não está claro como eles as utilizam. Apresentamos nosso conjunto de dados FollowIR, que contém um rigoroso benchmark de avaliação de instruções, bem como um conjunto de treinamento para ajudar modelos de IR a aprender a seguir melhor instruções do mundo real. O FollowIR se baseia na longa história das conferências TREC: assim como o TREC fornece instruções (também conhecidas como narrativas) para anotadores humanos determinarem a relevância de documentos, os modelos de IR também devem ser capazes de entender e decidir a relevância com base nessas instruções detalhadas. Nosso benchmark de avaliação começa com três coleções TREC profundamente julgadas e altera as instruções dos anotadores, reanotando documentos relevantes. Por meio desse processo, podemos medir o quão bem os modelos de IR seguem instruções, utilizando um novo framework de avaliação pareada. Nossos resultados indicam que os modelos de recuperação existentes falham em utilizar corretamente as instruções, limitando-se a palavras-chave básicas e tendo dificuldade em entender informações de formato longo. No entanto, mostramos que é possível para modelos de IR aprenderem a seguir instruções complexas: nosso novo modelo FollowIR-7B apresenta melhorias significativas (mais de 13%) após o ajuste fino em nosso conjunto de treinamento.
English
Modern Large Language Models (LLMs) are capable of following long and complex
instructions that enable a diverse amount of user tasks. However, despite
Information Retrieval (IR) models using LLMs as the backbone of their
architectures, nearly all of them still only take queries as input, with no
instructions. For the handful of recent models that do take instructions, it's
unclear how they use them. We introduce our dataset FollowIR, which contains a
rigorous instruction evaluation benchmark as well as a training set for helping
IR models learn to better follow real-world instructions. FollowIR builds off
the long history of the TREC conferences: as TREC provides human annotators
with instructions (also known as narratives) to determine document relevance,
so should IR models be able to understand and decide relevance based on these
detailed instructions. Our evaluation benchmark starts with three deeply judged
TREC collections and alters the annotator instructions, re-annotating relevant
documents. Through this process, we can measure how well IR models follow
instructions, through a new pairwise evaluation framework. Our results indicate
that existing retrieval models fail to correctly use instructions, using them
for basic keywords and struggling to understand long-form information. However,
we show that it is possible for IR models to learn to follow complex
instructions: our new FollowIR-7B model has significant improvements (over 13%)
after fine-tuning on our training set.