ChatPaper.aiChatPaper

RAVEN: In-Context Leren met Retrieval Augmented Encoder-Decoder Taalmodellen

RAVEN: In-Context Learning with Retrieval Augmented Encoder-Decoder Language Models

August 15, 2023
Auteurs: Jie Huang, Wei Ping, Peng Xu, Mohammad Shoeybi, Kevin Chen-Chuan Chang, Bryan Catanzaro
cs.AI

Samenvatting

In dit artikel onderzoeken we het in-context leervermogen van retrieval-augmented encoder-decoder taalmodelen. We voeren eerst een uitgebreide analyse uit van het state-of-the-art ATLAS-model en identificeren de beperkingen ervan in in-context leren, voornamelijk door een mismatch tussen pretraining en testen, evenals een beperkte contextlengte. Om deze problemen aan te pakken, stellen we RAVEN voor, een model dat retrieval-augmented gemaskeerd taalmodelen en prefix-taalmodelen combineert. We introduceren verder Fusion-in-Context Learning om de few-shot prestaties te verbeteren door het model in staat te stellen meer in-context voorbeelden te benutten zonder extra training of modelaanpassingen. Door middel van uitgebreide experimenten tonen we aan dat RAVEN ATLAS significant overtreft en in bepaalde scenario's resultaten behaalt die vergelijkbaar zijn met de meest geavanceerde taalmodelen, ondanks aanzienlijk minder parameters. Ons werk benadrukt het potentieel van retrieval-augmented encoder-decoder taalmodelen voor in-context leren en moedigt verder onderzoek in deze richting aan.
English
In this paper, we investigate the in-context learning ability of retrieval-augmented encoder-decoder language models. We first conduct a comprehensive analysis of the state-of-the-art ATLAS model and identify its limitations in in-context learning, primarily due to a mismatch between pretraining and testing, as well as a restricted context length. To address these issues, we propose RAVEN, a model that combines retrieval-augmented masked language modeling and prefix language modeling. We further introduce Fusion-in-Context Learning to enhance the few-shot performance by enabling the model to leverage more in-context examples without requiring additional training or model modifications. Through extensive experiments, we demonstrate that RAVEN significantly outperforms ATLAS and achieves results comparable to the most advanced language models in certain scenarios, despite having substantially fewer parameters. Our work underscores the potential of retrieval-augmented encoder-decoder language models for in-context learning and encourages further research in this direction.
PDF181February 8, 2026