RAVEN: Обучение в контексте с использованием языковых моделей типа "кодировщик-декодировщик", усиленных поиском данных
RAVEN: In-Context Learning with Retrieval Augmented Encoder-Decoder Language Models
August 15, 2023
Авторы: Jie Huang, Wei Ping, Peng Xu, Mohammad Shoeybi, Kevin Chen-Chuan Chang, Bryan Catanzaro
cs.AI
Аннотация
В данной статье мы исследуем способность к обучению в контексте у моделей языка с кодировщиком-декодировщиком, усиленных механизмом извлечения. Сначала мы проводим всесторонний анализ современной модели ATLAS и выявляем её ограничения в обучении в контексте, обусловленные главным образом несоответствием между предварительным обучением и тестированием, а также ограниченной длиной контекста. Для устранения этих проблем мы предлагаем модель RAVEN, которая сочетает маскированное языковое моделирование, усиленное извлечением, и префиксное языковое моделирование. Кроме того, мы вводим концепцию Fusion-in-Context Learning для улучшения производительности в условиях малого количества примеров, позволяя модели использовать больше примеров в контексте без необходимости дополнительного обучения или модификации модели. В ходе обширных экспериментов мы демонстрируем, что RAVEN значительно превосходит ATLAS и достигает результатов, сопоставимых с наиболее продвинутыми языковыми моделями в определённых сценариях, несмотря на существенно меньшее количество параметров. Наша работа подчеркивает потенциал моделей языка с кодировщиком-декодировщиком, усиленных механизмом извлечения, для обучения в контексте и стимулирует дальнейшие исследования в этом направлении.
English
In this paper, we investigate the in-context learning ability of
retrieval-augmented encoder-decoder language models. We first conduct a
comprehensive analysis of the state-of-the-art ATLAS model and identify its
limitations in in-context learning, primarily due to a mismatch between
pretraining and testing, as well as a restricted context length. To address
these issues, we propose RAVEN, a model that combines retrieval-augmented
masked language modeling and prefix language modeling. We further introduce
Fusion-in-Context Learning to enhance the few-shot performance by enabling the
model to leverage more in-context examples without requiring additional
training or model modifications. Through extensive experiments, we demonstrate
that RAVEN significantly outperforms ATLAS and achieves results comparable to
the most advanced language models in certain scenarios, despite having
substantially fewer parameters. Our work underscores the potential of
retrieval-augmented encoder-decoder language models for in-context learning and
encourages further research in this direction.