Metaentrenamiento con Recuperación de Demostraciones para un Aprendizaje Eficiente con Pocos Ejemplos
Meta-training with Demonstration Retrieval for Efficient Few-shot Learning
June 30, 2023
Autores: Aaron Mueller, Kanika Narang, Lambert Mathias, Qifan Wang, Hamed Firooz
cs.AI
Resumen
Los modelos de lenguaje a gran escala muestran resultados impresionantes en tareas de NLP con pocos ejemplos. Sin embargo, estos modelos requieren un uso intensivo de memoria y cómputo. El meta-entrenamiento permite aprovechar modelos más pequeños para la generalización con pocos ejemplos de manera generalizada y agnóstica a la tarea; no obstante, estos métodos por sí solos resultan en modelos que pueden no tener suficiente parametrización o conocimiento para adaptarse rápidamente a una amplia variedad de tareas. Para superar este problema, proponemos el meta-entrenamiento con recuperación de demostraciones, donde utilizamos un recuperador de pasajes densos para obtener demostraciones etiquetadas semánticamente similares a cada ejemplo, proporcionando así una supervisión más variada. Al separar el conocimiento externo de los parámetros del modelo, podemos usar el meta-entrenamiento para entrenar modelos eficientes en parámetros que generalizan bien en una mayor variedad de tareas. Construimos un conjunto de meta-entrenamiento a partir de UnifiedQA y CrossFit, y proponemos un banco de demostraciones basado en tareas de UnifiedQA. Hasta donde sabemos, nuestro trabajo es el primero en combinar la recuperación con el meta-entrenamiento, en usar modelos DPR para recuperar demostraciones, y en aprovechar demostraciones de múltiples tareas simultáneamente, en lugar de muestrear aleatoriamente demostraciones del conjunto de entrenamiento de la tarea objetivo. Nuestro enfoque supera a una variedad de métodos eficientes en parámetros y aumentados con recuperación en tareas de QA, NLI y clasificación de texto (incluyendo SQuAD, QNLI y TREC). Nuestro enfoque puede ser meta-entrenado y ajustado rápidamente en una sola GPU.
English
Large language models show impressive results on few-shot NLP tasks. However,
these models are memory and computation-intensive. Meta-training allows one to
leverage smaller models for few-shot generalization in a domain-general and
task-agnostic manner; however, these methods alone results in models that may
not have sufficient parameterization or knowledge to adapt quickly to a large
variety of tasks. To overcome this issue, we propose meta-training with
demonstration retrieval, where we use a dense passage retriever to retrieve
semantically similar labeled demonstrations to each example for more varied
supervision. By separating external knowledge from model parameters, we can use
meta-training to train parameter-efficient models that generalize well on a
larger variety of tasks. We construct a meta-training set from UnifiedQA and
CrossFit, and propose a demonstration bank based on UnifiedQA tasks. To our
knowledge, our work is the first to combine retrieval with meta-training, to
use DPR models to retrieve demonstrations, and to leverage demonstrations from
many tasks simultaneously, rather than randomly sampling demonstrations from
the training set of the target task. Our approach outperforms a variety of
targeted parameter-efficient and retrieval-augmented few-shot methods on QA,
NLI, and text classification tasks (including SQuAD, QNLI, and TREC). Our
approach can be meta-trained and fine-tuned quickly on a single GPU.