RAVEN: 検索拡張型エンコーダ-デコーダ言語モデルによるインコンテキスト学習
RAVEN: In-Context Learning with Retrieval Augmented Encoder-Decoder Language Models
August 15, 2023
著者: Jie Huang, Wei Ping, Peng Xu, Mohammad Shoeybi, Kevin Chen-Chuan Chang, Bryan Catanzaro
cs.AI
要旨
本論文では、検索拡張型エンコーダ・デコーダ言語モデルの文脈内学習能力を調査する。まず、最先端のATLASモデルを包括的に分析し、事前学習とテストのミスマッチ、および制限された文脈長が主な原因となる文脈内学習の限界を明らかにする。これらの課題に対処するため、検索拡張型マスク言語モデリングとプレフィックス言語モデリングを組み合わせたRAVENモデルを提案する。さらに、追加の学習やモデルの変更を必要とせずに、より多くの文脈内の例を活用できるようにするFusion-in-Context Learningを導入し、few-shot性能を向上させる。大規模な実験を通じて、RAVENがATLASを大幅に上回り、特定のシナリオでは最も先進的な言語モデルに匹敵する結果を達成することを示す。本研究成果は、検索拡張型エンコーダ・デコーダ言語モデルの文脈内学習における可能性を強調し、この方向性でのさらなる研究を促すものである。
English
In this paper, we investigate the in-context learning ability of
retrieval-augmented encoder-decoder language models. We first conduct a
comprehensive analysis of the state-of-the-art ATLAS model and identify its
limitations in in-context learning, primarily due to a mismatch between
pretraining and testing, as well as a restricted context length. To address
these issues, we propose RAVEN, a model that combines retrieval-augmented
masked language modeling and prefix language modeling. We further introduce
Fusion-in-Context Learning to enhance the few-shot performance by enabling the
model to leverage more in-context examples without requiring additional
training or model modifications. Through extensive experiments, we demonstrate
that RAVEN significantly outperforms ATLAS and achieves results comparable to
the most advanced language models in certain scenarios, despite having
substantially fewer parameters. Our work underscores the potential of
retrieval-augmented encoder-decoder language models for in-context learning and
encourages further research in this direction.