RAVEN: In-Context-Lernen mit Retrieval-Augmented Encoder-Decoder-Sprachmodellen
RAVEN: In-Context Learning with Retrieval Augmented Encoder-Decoder Language Models
August 15, 2023
Autoren: Jie Huang, Wei Ping, Peng Xu, Mohammad Shoeybi, Kevin Chen-Chuan Chang, Bryan Catanzaro
cs.AI
Zusammenfassung
In diesem Artikel untersuchen wir die Fähigkeit zum In-Context-Lernen von retrieval-augmentierten Encoder-Decoder-Sprachmodellen. Zunächst führen wir eine umfassende Analyse des state-of-the-art ATLAS-Modells durch und identifizieren dessen Einschränkungen beim In-Context-Lernen, die hauptsächlich auf eine Diskrepanz zwischen Pretraining und Testen sowie auf eine begrenzte Kontextlänge zurückzuführen sind. Um diese Probleme zu adressieren, schlagen wir RAVEN vor, ein Modell, das retrieval-augmentiertes Masked Language Modeling und Prefix Language Modeling kombiniert. Darüber hinaus führen wir Fusion-in-Context-Learning ein, um die Few-Shot-Leistung zu verbessern, indem das Modell in die Lage versetzt wird, mehr In-Context-Beispiele zu nutzen, ohne zusätzliches Training oder Modifikationen zu erfordern. Durch umfangreiche Experimente zeigen wir, dass RAVEN ATLAS deutlich übertrifft und in bestimmten Szenarien Ergebnisse erzielt, die mit den fortschrittlichsten Sprachmodellen vergleichbar sind, obwohl es erheblich weniger Parameter aufweist. Unsere Arbeit unterstreicht das Potenzial von retrieval-augmentierten Encoder-Decoder-Sprachmodellen für das In-Context-Lernen und regt weitere Forschung in dieser Richtung an.
English
In this paper, we investigate the in-context learning ability of
retrieval-augmented encoder-decoder language models. We first conduct a
comprehensive analysis of the state-of-the-art ATLAS model and identify its
limitations in in-context learning, primarily due to a mismatch between
pretraining and testing, as well as a restricted context length. To address
these issues, we propose RAVEN, a model that combines retrieval-augmented
masked language modeling and prefix language modeling. We further introduce
Fusion-in-Context Learning to enhance the few-shot performance by enabling the
model to leverage more in-context examples without requiring additional
training or model modifications. Through extensive experiments, we demonstrate
that RAVEN significantly outperforms ATLAS and achieves results comparable to
the most advanced language models in certain scenarios, despite having
substantially fewer parameters. Our work underscores the potential of
retrieval-augmented encoder-decoder language models for in-context learning and
encourages further research in this direction.