Meta-Training mit Demonstrationsabruf für effizientes Few-Shot-Lernen
Meta-training with Demonstration Retrieval for Efficient Few-shot Learning
June 30, 2023
Autoren: Aaron Mueller, Kanika Narang, Lambert Mathias, Qifan Wang, Hamed Firooz
cs.AI
Zusammenfassung
Große Sprachmodelle zeigen beeindruckende Ergebnisse bei Few-Shot-NLP-Aufgaben. Allerdings sind diese Modelle speicher- und rechenintensiv. Meta-Training ermöglicht es, kleinere Modelle für die Few-Shot-Generalisierung auf eine domänenübergreifende und aufgabenunabhängige Weise zu nutzen; jedoch führen diese Methoden allein zu Modellen, die möglicherweise nicht über ausreichende Parametrisierung oder Wissen verfügen, um sich schnell an eine Vielzahl von Aufgaben anzupassen. Um dieses Problem zu überwinden, schlagen wir Meta-Training mit Demonstrationsabruf vor, bei dem wir einen dichten Passagenabrufer verwenden, um semantisch ähnliche, beschriftete Demonstrationen zu jedem Beispiel für eine vielfältigere Überwachung abzurufen. Indem wir externes Wissen von den Modellparametern trennen, können wir Meta-Training nutzen, um parameter-effiziente Modelle zu trainieren, die sich gut auf eine größere Vielfalt von Aufgaben verallgemeinern lassen. Wir erstellen einen Meta-Trainingsdatensatz aus UnifiedQA und CrossFit und schlagen eine Demonstrationsbank basierend auf UnifiedQA-Aufgaben vor. Unseres Wissens ist unsere Arbeit die erste, die Abruf mit Meta-Training kombiniert, DPR-Modelle zum Abrufen von Demonstrationen verwendet und Demonstrationen aus vielen Aufgaben gleichzeitig nutzt, anstatt zufällig Demonstrationen aus dem Trainingsdatensatz der Zielaufgabe zu ziehen. Unser Ansatz übertrifft eine Vielzahl von gezielten parameter-effizienten und abrufgestützten Few-Shot-Methoden bei QA-, NLI- und Textklassifizierungsaufgaben (einschließlich SQuAD, QNLI und TREC). Unser Ansatz kann schnell auf einer einzelnen GPU meta-trainiert und feinabgestimmt werden.
English
Large language models show impressive results on few-shot NLP tasks. However,
these models are memory and computation-intensive. Meta-training allows one to
leverage smaller models for few-shot generalization in a domain-general and
task-agnostic manner; however, these methods alone results in models that may
not have sufficient parameterization or knowledge to adapt quickly to a large
variety of tasks. To overcome this issue, we propose meta-training with
demonstration retrieval, where we use a dense passage retriever to retrieve
semantically similar labeled demonstrations to each example for more varied
supervision. By separating external knowledge from model parameters, we can use
meta-training to train parameter-efficient models that generalize well on a
larger variety of tasks. We construct a meta-training set from UnifiedQA and
CrossFit, and propose a demonstration bank based on UnifiedQA tasks. To our
knowledge, our work is the first to combine retrieval with meta-training, to
use DPR models to retrieve demonstrations, and to leverage demonstrations from
many tasks simultaneously, rather than randomly sampling demonstrations from
the training set of the target task. Our approach outperforms a variety of
targeted parameter-efficient and retrieval-augmented few-shot methods on QA,
NLI, and text classification tasks (including SQuAD, QNLI, and TREC). Our
approach can be meta-trained and fine-tuned quickly on a single GPU.