ChatPaper.aiChatPaper

デモンストレーション検索を用いたメタトレーニングによる効率的な少数ショット学習

Meta-training with Demonstration Retrieval for Efficient Few-shot Learning

June 30, 2023
著者: Aaron Mueller, Kanika Narang, Lambert Mathias, Qifan Wang, Hamed Firooz
cs.AI

要旨

大規模言語モデルは、Few-shot NLPタスクにおいて印象的な結果を示しています。しかし、これらのモデルはメモリと計算量を大量に消費します。メタトレーニングを用いることで、ドメイン汎用的かつタスク非依存的な方法で、Few-shot汎化のために小さなモデルを活用することが可能です。しかし、これらの手法だけでは、多様なタスクに迅速に適応するための十分なパラメータ化や知識を備えたモデルを得られない場合があります。この問題を克服するために、我々はデモンストレーション検索を伴うメタトレーニングを提案します。ここでは、密なパッセージ検索器を使用して、各例に対して意味的に類似したラベル付きデモンストレーションを検索し、より多様な監督を実現します。外部知識をモデルパラメータから分離することで、メタトレーニングを用いて、多様なタスクにおいて良好に汎化するパラメータ効率の良いモデルを訓練することができます。我々はUnifiedQAとCrossFitからメタトレーニングセットを構築し、UnifiedQAタスクに基づくデモンストレーションバンクを提案します。我々の知る限り、我々の研究は、検索とメタトレーニングを組み合わせた最初のものであり、DPRモデルを使用してデモンストレーションを検索し、ターゲットタスクの訓練セットからランダムにデモンストレーションをサンプリングするのではなく、多くのタスクから同時にデモンストレーションを活用する初めての試みです。我々のアプローチは、QA、NLI、テキスト分類タスク(SQuAD、QNLI、TRECを含む)において、様々なターゲットパラメータ効率および検索拡張Few-shot手法を上回ります。我々のアプローチは、単一のGPUで迅速にメタトレーニングおよびファインチューニングすることが可能です。
English
Large language models show impressive results on few-shot NLP tasks. However, these models are memory and computation-intensive. Meta-training allows one to leverage smaller models for few-shot generalization in a domain-general and task-agnostic manner; however, these methods alone results in models that may not have sufficient parameterization or knowledge to adapt quickly to a large variety of tasks. To overcome this issue, we propose meta-training with demonstration retrieval, where we use a dense passage retriever to retrieve semantically similar labeled demonstrations to each example for more varied supervision. By separating external knowledge from model parameters, we can use meta-training to train parameter-efficient models that generalize well on a larger variety of tasks. We construct a meta-training set from UnifiedQA and CrossFit, and propose a demonstration bank based on UnifiedQA tasks. To our knowledge, our work is the first to combine retrieval with meta-training, to use DPR models to retrieve demonstrations, and to leverage demonstrations from many tasks simultaneously, rather than randomly sampling demonstrations from the training set of the target task. Our approach outperforms a variety of targeted parameter-efficient and retrieval-augmented few-shot methods on QA, NLI, and text classification tasks (including SQuAD, QNLI, and TREC). Our approach can be meta-trained and fine-tuned quickly on a single GPU.
PDF60December 15, 2024