FollowIR: Evaluación y Enseñanza de Modelos de Recuperación de Información para Seguir Instrucciones
FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions
March 22, 2024
Autores: Orion Weller, Benjamin Chang, Sean MacAvaney, Kyle Lo, Arman Cohan, Benjamin Van Durme, Dawn Lawrie, Luca Soldaini
cs.AI
Resumen
Los modelos modernos de lenguaje de gran escala (LLMs, por sus siglas en inglés) son capaces de seguir instrucciones largas y complejas que permiten una amplia variedad de tareas para los usuarios. Sin embargo, a pesar de que los modelos de Recuperación de Información (IR, por sus siglas en inglés) utilizan LLMs como la base de sus arquitecturas, casi todos ellos aún solo toman consultas como entrada, sin instrucciones. Para los pocos modelos recientes que sí aceptan instrucciones, no está claro cómo las utilizan. Presentamos nuestro conjunto de datos FollowIR, que incluye un riguroso punto de referencia para la evaluación de instrucciones, así como un conjunto de entrenamiento para ayudar a los modelos de IR a aprender a seguir mejor las instrucciones del mundo real. FollowIR se basa en la larga historia de las conferencias TREC: así como TREC proporciona a los anotadores humanos instrucciones (también conocidas como narrativas) para determinar la relevancia de los documentos, los modelos de IR deberían ser capaces de comprender y decidir la relevancia basándose en estas instrucciones detalladas. Nuestro punto de referencia de evaluación comienza con tres colecciones de TREC profundamente evaluadas y modifica las instrucciones de los anotadores, reanotando los documentos relevantes. A través de este proceso, podemos medir qué tan bien los modelos de IR siguen las instrucciones, utilizando un nuevo marco de evaluación por pares. Nuestros resultados indican que los modelos de recuperación existentes no utilizan correctamente las instrucciones, usándolas para palabras clave básicas y luchando por comprender información extensa. Sin embargo, demostramos que es posible que los modelos de IR aprendan a seguir instrucciones complejas: nuestro nuevo modelo FollowIR-7B muestra mejoras significativas (más del 13%) después del ajuste fino en nuestro conjunto de entrenamiento.
English
Modern Large Language Models (LLMs) are capable of following long and complex
instructions that enable a diverse amount of user tasks. However, despite
Information Retrieval (IR) models using LLMs as the backbone of their
architectures, nearly all of them still only take queries as input, with no
instructions. For the handful of recent models that do take instructions, it's
unclear how they use them. We introduce our dataset FollowIR, which contains a
rigorous instruction evaluation benchmark as well as a training set for helping
IR models learn to better follow real-world instructions. FollowIR builds off
the long history of the TREC conferences: as TREC provides human annotators
with instructions (also known as narratives) to determine document relevance,
so should IR models be able to understand and decide relevance based on these
detailed instructions. Our evaluation benchmark starts with three deeply judged
TREC collections and alters the annotator instructions, re-annotating relevant
documents. Through this process, we can measure how well IR models follow
instructions, through a new pairwise evaluation framework. Our results indicate
that existing retrieval models fail to correctly use instructions, using them
for basic keywords and struggling to understand long-form information. However,
we show that it is possible for IR models to learn to follow complex
instructions: our new FollowIR-7B model has significant improvements (over 13%)
after fine-tuning on our training set.Summary
AI-Generated Summary