Meta-training met demonstratieretrieval voor efficiënt few-shot leren
Meta-training with Demonstration Retrieval for Efficient Few-shot Learning
June 30, 2023
Auteurs: Aaron Mueller, Kanika Narang, Lambert Mathias, Qifan Wang, Hamed Firooz
cs.AI
Samenvatting
Grote taalmodelen laten indrukwekkende resultaten zien bij few-shot NLP-taken. Deze modellen zijn echter geheugen- en rekenintensief. Meta-training maakt het mogelijk om kleinere modellen te benutten voor few-shot generalisatie op een domeingenerieke en taakonafhankelijke manier; deze methoden alleen resulteren echter in modellen die mogelijk niet voldoende geparametriseerd zijn of over voldoende kennis beschikken om zich snel aan te passen aan een grote verscheidenheid aan taken. Om dit probleem te overwinnen, stellen we meta-training voor met demonstratieretrieval, waarbij we een dense passage retriever gebruiken om semantisch gelijkende gelabelde demonstraties voor elk voorbeeld op te halen voor meer gevarieerde supervisie. Door externe kennis te scheiden van modelparameters, kunnen we meta-training gebruiken om parameter-efficiënte modellen te trainen die goed generaliseren op een grotere verscheidenheid aan taken. We construeren een meta-trainingsset uit UnifiedQA en CrossFit, en stellen een demonstratiebank voor gebaseerd op UnifiedQA-taken. Voor zover wij weten, is ons werk het eerste dat retrieval combineert met meta-training, DPR-modellen gebruikt om demonstraties op te halen, en demonstraties van veel taken tegelijkertijd benut, in plaats van willekeurig demonstraties te bemonsteren uit de trainingsset van de doeltaak. Onze aanpak overtreft een verscheidenheid aan gerichte parameter-efficiënte en retrieval-augmented few-shot methoden bij QA-, NLI- en tekstclassificatietaken (inclusief SQuAD, QNLI en TREC). Onze aanpak kan snel worden meta-getraind en gefinetuned op een enkele GPU.
English
Large language models show impressive results on few-shot NLP tasks. However,
these models are memory and computation-intensive. Meta-training allows one to
leverage smaller models for few-shot generalization in a domain-general and
task-agnostic manner; however, these methods alone results in models that may
not have sufficient parameterization or knowledge to adapt quickly to a large
variety of tasks. To overcome this issue, we propose meta-training with
demonstration retrieval, where we use a dense passage retriever to retrieve
semantically similar labeled demonstrations to each example for more varied
supervision. By separating external knowledge from model parameters, we can use
meta-training to train parameter-efficient models that generalize well on a
larger variety of tasks. We construct a meta-training set from UnifiedQA and
CrossFit, and propose a demonstration bank based on UnifiedQA tasks. To our
knowledge, our work is the first to combine retrieval with meta-training, to
use DPR models to retrieve demonstrations, and to leverage demonstrations from
many tasks simultaneously, rather than randomly sampling demonstrations from
the training set of the target task. Our approach outperforms a variety of
targeted parameter-efficient and retrieval-augmented few-shot methods on QA,
NLI, and text classification tasks (including SQuAD, QNLI, and TREC). Our
approach can be meta-trained and fine-tuned quickly on a single GPU.