Méta-apprentissage avec récupération de démonstrations pour un apprentissage efficace en few-shot
Meta-training with Demonstration Retrieval for Efficient Few-shot Learning
June 30, 2023
Auteurs: Aaron Mueller, Kanika Narang, Lambert Mathias, Qifan Wang, Hamed Firooz
cs.AI
Résumé
Les grands modèles de langage montrent des résultats impressionnants sur les tâches NLP en few-shot. Cependant, ces modèles sont gourmands en mémoire et en calcul. Le méta-apprentissage permet d'exploiter des modèles plus petits pour la généralisation en few-shot de manière générale et indépendante de la tâche ; cependant, ces méthodes seules aboutissent à des modèles qui peuvent ne pas avoir une paramétrisation ou des connaissances suffisantes pour s'adapter rapidement à une grande variété de tâches. Pour surmonter ce problème, nous proposons un méta-apprentissage avec récupération de démonstrations, où nous utilisons un récupérateur de passages denses pour récupérer des démonstrations étiquetées sémantiquement similaires à chaque exemple, afin d'obtenir une supervision plus variée. En séparant les connaissances externes des paramètres du modèle, nous pouvons utiliser le méta-apprentissage pour entraîner des modèles paramétriquement efficaces qui généralisent bien sur une plus grande variété de tâches. Nous construisons un ensemble de méta-apprentissage à partir de UnifiedQA et CrossFit, et proposons une banque de démonstrations basée sur les tâches d'UnifiedQA. À notre connaissance, notre travail est le premier à combiner la récupération avec le méta-apprentissage, à utiliser des modèles DPR pour récupérer des démonstrations, et à exploiter des démonstrations provenant de nombreuses tâches simultanément, plutôt que d'échantillonner aléatoirement des démonstrations à partir de l'ensemble d'entraînement de la tâche cible. Notre approche surpasse une variété de méthodes ciblées, paramétriquement efficaces et augmentées par récupération, sur les tâches de question-réponse, d'inférence en langage naturel et de classification de texte (y compris SQuAD, QNLI et TREC). Notre approche peut être méta-entraînée et affinée rapidement sur un seul GPU.
English
Large language models show impressive results on few-shot NLP tasks. However,
these models are memory and computation-intensive. Meta-training allows one to
leverage smaller models for few-shot generalization in a domain-general and
task-agnostic manner; however, these methods alone results in models that may
not have sufficient parameterization or knowledge to adapt quickly to a large
variety of tasks. To overcome this issue, we propose meta-training with
demonstration retrieval, where we use a dense passage retriever to retrieve
semantically similar labeled demonstrations to each example for more varied
supervision. By separating external knowledge from model parameters, we can use
meta-training to train parameter-efficient models that generalize well on a
larger variety of tasks. We construct a meta-training set from UnifiedQA and
CrossFit, and propose a demonstration bank based on UnifiedQA tasks. To our
knowledge, our work is the first to combine retrieval with meta-training, to
use DPR models to retrieve demonstrations, and to leverage demonstrations from
many tasks simultaneously, rather than randomly sampling demonstrations from
the training set of the target task. Our approach outperforms a variety of
targeted parameter-efficient and retrieval-augmented few-shot methods on QA,
NLI, and text classification tasks (including SQuAD, QNLI, and TREC). Our
approach can be meta-trained and fine-tuned quickly on a single GPU.