RAVEN: Apprendimento in-Contesto con Modelli Linguistici Encoder-Decoder Potenziati dal Recupero delle Informazioni
RAVEN: In-Context Learning with Retrieval Augmented Encoder-Decoder Language Models
August 15, 2023
Autori: Jie Huang, Wei Ping, Peng Xu, Mohammad Shoeybi, Kevin Chen-Chuan Chang, Bryan Catanzaro
cs.AI
Abstract
In questo articolo, investigiamo la capacità di apprendimento in contesto (in-context learning) dei modelli linguistici encoder-decoder potenziati dal retrieval. Iniziamo conducendo un'analisi completa del modello all'avanguardia ATLAS e identifichiamo i suoi limiti nell'apprendimento in contesto, principalmente dovuti a una discrepanza tra pre-addestramento e test, nonché a una lunghezza del contesto limitata. Per affrontare questi problemi, proponiamo RAVEN, un modello che combina il masked language modeling potenziato dal retrieval e il prefix language modeling. Introduciamo inoltre il Fusion-in-Context Learning per migliorare le prestazioni in scenari few-shot, consentendo al modello di sfruttare più esempi in contesto senza richiedere ulteriori addestramenti o modifiche al modello. Attraverso esperimenti estensivi, dimostriamo che RAVEN supera significativamente ATLAS e raggiunge risultati comparabili ai modelli linguistici più avanzati in determinati scenari, nonostante abbia un numero sostanzialmente inferiore di parametri. Il nostro lavoro sottolinea il potenziale dei modelli linguistici encoder-decoder potenziati dal retrieval per l'apprendimento in contesto e incoraggia ulteriori ricerche in questa direzione.
English
In this paper, we investigate the in-context learning ability of
retrieval-augmented encoder-decoder language models. We first conduct a
comprehensive analysis of the state-of-the-art ATLAS model and identify its
limitations in in-context learning, primarily due to a mismatch between
pretraining and testing, as well as a restricted context length. To address
these issues, we propose RAVEN, a model that combines retrieval-augmented
masked language modeling and prefix language modeling. We further introduce
Fusion-in-Context Learning to enhance the few-shot performance by enabling the
model to leverage more in-context examples without requiring additional
training or model modifications. Through extensive experiments, we demonstrate
that RAVEN significantly outperforms ATLAS and achieves results comparable to
the most advanced language models in certain scenarios, despite having
substantially fewer parameters. Our work underscores the potential of
retrieval-augmented encoder-decoder language models for in-context learning and
encourages further research in this direction.