RAVEN : Apprentissage en contexte avec des modèles de langage encodeur-décodeur augmentés par récupération
RAVEN: In-Context Learning with Retrieval Augmented Encoder-Decoder Language Models
August 15, 2023
Auteurs: Jie Huang, Wei Ping, Peng Xu, Mohammad Shoeybi, Kevin Chen-Chuan Chang, Bryan Catanzaro
cs.AI
Résumé
Dans cet article, nous étudions la capacité d'apprentissage en contexte des modèles de langage encodeur-décodeur augmentés par récupération d'information. Nous commençons par réaliser une analyse approfondie du modèle ATLAS, considéré comme l'état de l'art, et identifions ses limitations en matière d'apprentissage en contexte, principalement dues à un décalage entre le pré-entraînement et les tests, ainsi qu'à une longueur de contexte restreinte. Pour résoudre ces problèmes, nous proposons RAVEN, un modèle qui combine la modélisation de langage masquée augmentée par récupération et la modélisation de langage par préfixe. Nous introduisons également l'apprentissage par fusion en contexte pour améliorer les performances en few-shot, permettant au modèle d'exploiter davantage d'exemples en contexte sans nécessiter d'entraînement supplémentaire ou de modifications du modèle. À travers des expériences approfondies, nous démontrons que RAVEN surpasse significativement ATLAS et obtient des résultats comparables aux modèles de langage les plus avancés dans certains scénarios, malgré un nombre de paramètres nettement inférieur. Notre travail met en lumière le potentiel des modèles de langage encodeur-décodeur augmentés par récupération pour l'apprentissage en contexte et encourage des recherches supplémentaires dans cette direction.
English
In this paper, we investigate the in-context learning ability of
retrieval-augmented encoder-decoder language models. We first conduct a
comprehensive analysis of the state-of-the-art ATLAS model and identify its
limitations in in-context learning, primarily due to a mismatch between
pretraining and testing, as well as a restricted context length. To address
these issues, we propose RAVEN, a model that combines retrieval-augmented
masked language modeling and prefix language modeling. We further introduce
Fusion-in-Context Learning to enhance the few-shot performance by enabling the
model to leverage more in-context examples without requiring additional
training or model modifications. Through extensive experiments, we demonstrate
that RAVEN significantly outperforms ATLAS and achieves results comparable to
the most advanced language models in certain scenarios, despite having
substantially fewer parameters. Our work underscores the potential of
retrieval-augmented encoder-decoder language models for in-context learning and
encourages further research in this direction.