Meta-treinamento com Recuperação de Demonstrações para Aprendizado Eficiente com Poucos Exemplos
Meta-training with Demonstration Retrieval for Efficient Few-shot Learning
June 30, 2023
Autores: Aaron Mueller, Kanika Narang, Lambert Mathias, Qifan Wang, Hamed Firooz
cs.AI
Resumo
Modelos de linguagem de grande escala demonstram resultados impressionantes em tarefas de NLP com poucos exemplos. No entanto, esses modelos são intensivos em memória e computação. O meta-treinamento permite aproveitar modelos menores para generalização com poucos exemplos de maneira independente de domínio e tarefa; entretanto, esses métodos isoladamente resultam em modelos que podem não ter parametrização ou conhecimento suficientes para se adaptar rapidamente a uma grande variedade de tarefas. Para superar esse problema, propomos o meta-treinamento com recuperação de demonstrações, onde utilizamos um recuperador de passagens densas para recuperar demonstrações rotuladas semanticamente semelhantes a cada exemplo, proporcionando uma supervisão mais variada. Ao separar o conhecimento externo dos parâmetros do modelo, podemos usar o meta-treinamento para treinar modelos eficientes em parâmetros que generalizam bem em uma variedade maior de tarefas. Construímos um conjunto de meta-treinamento a partir do UnifiedQA e CrossFit, e propomos um banco de demonstrações baseado em tarefas do UnifiedQA. Até onde sabemos, nosso trabalho é o primeiro a combinar recuperação com meta-treinamento, a usar modelos DPR para recuperar demonstrações, e a aproveitar demonstrações de muitas tarefas simultaneamente, em vez de amostrar aleatoriamente demonstrações do conjunto de treinamento da tarefa alvo. Nossa abordagem supera uma variedade de métodos eficientes em parâmetros e aumentados por recuperação para tarefas de QA, NLI e classificação de texto (incluindo SQuAD, QNLI e TREC). Nossa abordagem pode ser meta-treinada e ajustada rapidamente em uma única GPU.
English
Large language models show impressive results on few-shot NLP tasks. However,
these models are memory and computation-intensive. Meta-training allows one to
leverage smaller models for few-shot generalization in a domain-general and
task-agnostic manner; however, these methods alone results in models that may
not have sufficient parameterization or knowledge to adapt quickly to a large
variety of tasks. To overcome this issue, we propose meta-training with
demonstration retrieval, where we use a dense passage retriever to retrieve
semantically similar labeled demonstrations to each example for more varied
supervision. By separating external knowledge from model parameters, we can use
meta-training to train parameter-efficient models that generalize well on a
larger variety of tasks. We construct a meta-training set from UnifiedQA and
CrossFit, and propose a demonstration bank based on UnifiedQA tasks. To our
knowledge, our work is the first to combine retrieval with meta-training, to
use DPR models to retrieve demonstrations, and to leverage demonstrations from
many tasks simultaneously, rather than randomly sampling demonstrations from
the training set of the target task. Our approach outperforms a variety of
targeted parameter-efficient and retrieval-augmented few-shot methods on QA,
NLI, and text classification tasks (including SQuAD, QNLI, and TREC). Our
approach can be meta-trained and fine-tuned quickly on a single GPU.