FollowIR: Evaluación y Enseñanza de Modelos de Recuperación de Información para Seguir Instrucciones

Resumen

Los modelos modernos de lenguaje de gran escala (LLMs, por sus siglas en inglés) son capaces de seguir instrucciones largas y complejas que permiten una amplia variedad de tareas para los usuarios. Sin embargo, a pesar de que los modelos de Recuperación de Información (IR, por sus siglas en inglés) utilizan LLMs como la base de sus arquitecturas, casi todos ellos aún solo toman consultas como entrada, sin instrucciones. Para los pocos modelos recientes que sí aceptan instrucciones, no está claro cómo las utilizan. Presentamos nuestro conjunto de datos FollowIR, que incluye un riguroso punto de referencia para la evaluación de instrucciones, así como un conjunto de entrenamiento para ayudar a los modelos de IR a aprender a seguir mejor las instrucciones del mundo real. FollowIR se basa en la larga historia de las conferencias TREC: así como TREC proporciona a los anotadores humanos instrucciones (también conocidas como narrativas) para determinar la relevancia de los documentos, los modelos de IR deberían ser capaces de comprender y decidir la relevancia basándose en estas instrucciones detalladas. Nuestro punto de referencia de evaluación comienza con tres colecciones de TREC profundamente evaluadas y modifica las instrucciones de los anotadores, reanotando los documentos relevantes. A través de este proceso, podemos medir qué tan bien los modelos de IR siguen las instrucciones, utilizando un nuevo marco de evaluación por pares. Nuestros resultados indican que los modelos de recuperación existentes no utilizan correctamente las instrucciones, usándolas para palabras clave básicas y luchando por comprender información extensa. Sin embargo, demostramos que es posible que los modelos de IR aprendan a seguir instrucciones complejas: nuestro nuevo modelo FollowIR-7B muestra mejoras significativas (más del 13%) después del ajuste fino en nuestro conjunto de entrenamiento.

English

Modern Large Language Models (LLMs) are capable of following long and complex instructions that enable a diverse amount of user tasks. However, despite Information Retrieval (IR) models using LLMs as the backbone of their architectures, nearly all of them still only take queries as input, with no instructions. For the handful of recent models that do take instructions, it's unclear how they use them. We introduce our dataset FollowIR, which contains a rigorous instruction evaluation benchmark as well as a training set for helping IR models learn to better follow real-world instructions. FollowIR builds off the long history of the TREC conferences: as TREC provides human annotators with instructions (also known as narratives) to determine document relevance, so should IR models be able to understand and decide relevance based on these detailed instructions. Our evaluation benchmark starts with three deeply judged TREC collections and alters the annotator instructions, re-annotating relevant documents. Through this process, we can measure how well IR models follow instructions, through a new pairwise evaluation framework. Our results indicate that existing retrieval models fail to correctly use instructions, using them for basic keywords and struggling to understand long-form information. However, we show that it is possible for IR models to learn to follow complex instructions: our new FollowIR-7B model has significant improvements (over 13%) after fine-tuning on our training set.

FollowIR: Evaluación y Enseñanza de Modelos de Recuperación de Información para Seguir Instrucciones

FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions

Resumen

Support