ChatPaper.aiChatPaper

Метаобучение с извлечением демонстраций для эффективного обучения с малым количеством примеров

Meta-training with Demonstration Retrieval for Efficient Few-shot Learning

June 30, 2023
Авторы: Aaron Mueller, Kanika Narang, Lambert Mathias, Qifan Wang, Hamed Firooz
cs.AI

Аннотация

Крупные языковые модели демонстрируют впечатляющие результаты в задачах NLP с малым количеством примеров. Однако эти модели требуют значительных ресурсов памяти и вычислений. Мета-обучение позволяет использовать более компактные модели для обобщения в условиях малого количества примеров в общем и независимом от задачи виде; однако сами по себе эти методы могут приводить к созданию моделей, которые не обладают достаточной параметризацией или знаниями для быстрой адаптации к широкому спектру задач. Чтобы преодолеть эту проблему, мы предлагаем мета-обучение с извлечением демонстраций, где мы используем плотный извлекатель текстовых фрагментов для поиска семантически похожих размеченных демонстраций для каждого примера, что обеспечивает более разнообразное обучение. Отделяя внешние знания от параметров модели, мы можем использовать мета-обучение для тренировки параметрически эффективных моделей, которые хорошо обобщаются на более широкий круг задач. Мы создаем набор для мета-обучения на основе UnifiedQA и CrossFit и предлагаем банк демонстраций, основанный на задачах UnifiedQA. Насколько нам известно, наша работа является первой, где сочетаются извлечение и мета-обучение, используются модели DPR для извлечения демонстраций и задействуются демонстрации из множества задач одновременно, вместо случайного выбора демонстраций из обучающего набора целевой задачи. Наш подход превосходит различные специализированные параметрически эффективные и дополненные извлечением методы для задач с малым количеством примеров в задачах QA, NLI и классификации текста (включая SQuAD, QNLI и TREC). Наш подход может быть быстро мета-обучен и дообучен на одном GPU.
English
Large language models show impressive results on few-shot NLP tasks. However, these models are memory and computation-intensive. Meta-training allows one to leverage smaller models for few-shot generalization in a domain-general and task-agnostic manner; however, these methods alone results in models that may not have sufficient parameterization or knowledge to adapt quickly to a large variety of tasks. To overcome this issue, we propose meta-training with demonstration retrieval, where we use a dense passage retriever to retrieve semantically similar labeled demonstrations to each example for more varied supervision. By separating external knowledge from model parameters, we can use meta-training to train parameter-efficient models that generalize well on a larger variety of tasks. We construct a meta-training set from UnifiedQA and CrossFit, and propose a demonstration bank based on UnifiedQA tasks. To our knowledge, our work is the first to combine retrieval with meta-training, to use DPR models to retrieve demonstrations, and to leverage demonstrations from many tasks simultaneously, rather than randomly sampling demonstrations from the training set of the target task. Our approach outperforms a variety of targeted parameter-efficient and retrieval-augmented few-shot methods on QA, NLI, and text classification tasks (including SQuAD, QNLI, and TREC). Our approach can be meta-trained and fine-tuned quickly on a single GPU.
PDF60December 15, 2024