ChatPaper.aiChatPaper

RAVEN: In-Context-Lernen mit Retrieval-Augmented Encoder-Decoder-Sprachmodellen

RAVEN: In-Context Learning with Retrieval Augmented Encoder-Decoder Language Models

August 15, 2023
Autoren: Jie Huang, Wei Ping, Peng Xu, Mohammad Shoeybi, Kevin Chen-Chuan Chang, Bryan Catanzaro
cs.AI

Zusammenfassung

In diesem Artikel untersuchen wir die Fähigkeit zum In-Context-Lernen von retrieval-augmentierten Encoder-Decoder-Sprachmodellen. Zunächst führen wir eine umfassende Analyse des state-of-the-art ATLAS-Modells durch und identifizieren dessen Einschränkungen beim In-Context-Lernen, die hauptsächlich auf eine Diskrepanz zwischen Pretraining und Testen sowie auf eine begrenzte Kontextlänge zurückzuführen sind. Um diese Probleme zu adressieren, schlagen wir RAVEN vor, ein Modell, das retrieval-augmentiertes Masked Language Modeling und Prefix Language Modeling kombiniert. Darüber hinaus führen wir Fusion-in-Context-Learning ein, um die Few-Shot-Leistung zu verbessern, indem das Modell in die Lage versetzt wird, mehr In-Context-Beispiele zu nutzen, ohne zusätzliches Training oder Modifikationen zu erfordern. Durch umfangreiche Experimente zeigen wir, dass RAVEN ATLAS deutlich übertrifft und in bestimmten Szenarien Ergebnisse erzielt, die mit den fortschrittlichsten Sprachmodellen vergleichbar sind, obwohl es erheblich weniger Parameter aufweist. Unsere Arbeit unterstreicht das Potenzial von retrieval-augmentierten Encoder-Decoder-Sprachmodellen für das In-Context-Lernen und regt weitere Forschung in dieser Richtung an.
English
In this paper, we investigate the in-context learning ability of retrieval-augmented encoder-decoder language models. We first conduct a comprehensive analysis of the state-of-the-art ATLAS model and identify its limitations in in-context learning, primarily due to a mismatch between pretraining and testing, as well as a restricted context length. To address these issues, we propose RAVEN, a model that combines retrieval-augmented masked language modeling and prefix language modeling. We further introduce Fusion-in-Context Learning to enhance the few-shot performance by enabling the model to leverage more in-context examples without requiring additional training or model modifications. Through extensive experiments, we demonstrate that RAVEN significantly outperforms ATLAS and achieves results comparable to the most advanced language models in certain scenarios, despite having substantially fewer parameters. Our work underscores the potential of retrieval-augmented encoder-decoder language models for in-context learning and encourages further research in this direction.
PDF181December 15, 2024