ChatPaper.aiChatPaper

효과적인 소수 샷 학습을 위한 데모스트레이션 검색 기반 메타 학습

Meta-training with Demonstration Retrieval for Efficient Few-shot Learning

June 30, 2023
저자: Aaron Mueller, Kanika Narang, Lambert Mathias, Qifan Wang, Hamed Firooz
cs.AI

초록

대규모 언어 모델은 소수 샷(few-shot) NLP 과제에서 인상적인 성과를 보여줍니다. 그러나 이러한 모델은 메모리와 계산 자원을 많이 소모합니다. 메타 학습(meta-training)을 통해 도메인 일반적이고 과제에 구애받지 않는 방식으로 소규모 모델을 활용하여 소수 샷 일반화를 달성할 수 있지만, 이러한 방법만으로는 다양한 과제에 빠르게 적응하기에 충분한 매개변수화나 지식을 갖춘 모델을 얻기 어렵습니다. 이 문제를 해결하기 위해, 우리는 시연 검색(demonstration retrieval)을 결합한 메타 학습을 제안합니다. 여기서는 밀집 문단 검색기(dense passage retriever)를 사용하여 각 예제와 의미적으로 유사한 레이블이 달린 시연을 검색하여 더 다양한 지도를 제공합니다. 외부 지식을 모델 매개변수와 분리함으로써, 메타 학습을 통해 매개변수 효율적이면서도 다양한 과제에서 잘 일반화되는 모델을 훈련할 수 있습니다. 우리는 UnifiedQA와 CrossFit에서 메타 학습 데이터셋을 구성하고, UnifiedQA 과제를 기반으로 한 시연 은행(demonstration bank)을 제안합니다. 우리가 아는 한, 이 연구는 검색과 메타 학습을 결합한 첫 번째 시도이며, DPR 모델을 사용하여 시연을 검색하고, 대상 과제의 훈련 세트에서 무작위로 시연을 샘플링하는 대신 여러 과제의 시연을 동시에 활용하는 최초의 연구입니다. 우리의 접근 방식은 QA, NLI, 텍스트 분류 과제(예: SQuAD, QNLI, TREC 등)에서 다양한 매개변수 효율적 및 검색 보강 소수 샷 방법을 능가합니다. 또한, 우리의 접근 방식은 단일 GPU에서 빠르게 메타 학습 및 미세 조정이 가능합니다.
English
Large language models show impressive results on few-shot NLP tasks. However, these models are memory and computation-intensive. Meta-training allows one to leverage smaller models for few-shot generalization in a domain-general and task-agnostic manner; however, these methods alone results in models that may not have sufficient parameterization or knowledge to adapt quickly to a large variety of tasks. To overcome this issue, we propose meta-training with demonstration retrieval, where we use a dense passage retriever to retrieve semantically similar labeled demonstrations to each example for more varied supervision. By separating external knowledge from model parameters, we can use meta-training to train parameter-efficient models that generalize well on a larger variety of tasks. We construct a meta-training set from UnifiedQA and CrossFit, and propose a demonstration bank based on UnifiedQA tasks. To our knowledge, our work is the first to combine retrieval with meta-training, to use DPR models to retrieve demonstrations, and to leverage demonstrations from many tasks simultaneously, rather than randomly sampling demonstrations from the training set of the target task. Our approach outperforms a variety of targeted parameter-efficient and retrieval-augmented few-shot methods on QA, NLI, and text classification tasks (including SQuAD, QNLI, and TREC). Our approach can be meta-trained and fine-tuned quickly on a single GPU.
PDF60December 15, 2024