RAVEN: In-Context Leren met Retrieval Augmented Encoder-Decoder Taalmodellen
RAVEN: In-Context Learning with Retrieval Augmented Encoder-Decoder Language Models
August 15, 2023
Auteurs: Jie Huang, Wei Ping, Peng Xu, Mohammad Shoeybi, Kevin Chen-Chuan Chang, Bryan Catanzaro
cs.AI
Samenvatting
In dit artikel onderzoeken we het in-context leervermogen van retrieval-augmented encoder-decoder taalmodelen. We voeren eerst een uitgebreide analyse uit van het state-of-the-art ATLAS-model en identificeren de beperkingen ervan in in-context leren, voornamelijk door een mismatch tussen pretraining en testen, evenals een beperkte contextlengte. Om deze problemen aan te pakken, stellen we RAVEN voor, een model dat retrieval-augmented gemaskeerd taalmodelen en prefix-taalmodelen combineert. We introduceren verder Fusion-in-Context Learning om de few-shot prestaties te verbeteren door het model in staat te stellen meer in-context voorbeelden te benutten zonder extra training of modelaanpassingen. Door middel van uitgebreide experimenten tonen we aan dat RAVEN ATLAS significant overtreft en in bepaalde scenario's resultaten behaalt die vergelijkbaar zijn met de meest geavanceerde taalmodelen, ondanks aanzienlijk minder parameters. Ons werk benadrukt het potentieel van retrieval-augmented encoder-decoder taalmodelen voor in-context leren en moedigt verder onderzoek in deze richting aan.
English
In this paper, we investigate the in-context learning ability of
retrieval-augmented encoder-decoder language models. We first conduct a
comprehensive analysis of the state-of-the-art ATLAS model and identify its
limitations in in-context learning, primarily due to a mismatch between
pretraining and testing, as well as a restricted context length. To address
these issues, we propose RAVEN, a model that combines retrieval-augmented
masked language modeling and prefix language modeling. We further introduce
Fusion-in-Context Learning to enhance the few-shot performance by enabling the
model to leverage more in-context examples without requiring additional
training or model modifications. Through extensive experiments, we demonstrate
that RAVEN significantly outperforms ATLAS and achieves results comparable to
the most advanced language models in certain scenarios, despite having
substantially fewer parameters. Our work underscores the potential of
retrieval-augmented encoder-decoder language models for in-context learning and
encourages further research in this direction.