RAVEN: Apprendimento in-Contesto con Modelli Linguistici Encoder-Decoder Potenziati dal Recupero delle Informazioni

Abstract

In questo articolo, investigiamo la capacità di apprendimento in contesto (in-context learning) dei modelli linguistici encoder-decoder potenziati dal retrieval. Iniziamo conducendo un'analisi completa del modello all'avanguardia ATLAS e identifichiamo i suoi limiti nell'apprendimento in contesto, principalmente dovuti a una discrepanza tra pre-addestramento e test, nonché a una lunghezza del contesto limitata. Per affrontare questi problemi, proponiamo RAVEN, un modello che combina il masked language modeling potenziato dal retrieval e il prefix language modeling. Introduciamo inoltre il Fusion-in-Context Learning per migliorare le prestazioni in scenari few-shot, consentendo al modello di sfruttare più esempi in contesto senza richiedere ulteriori addestramenti o modifiche al modello. Attraverso esperimenti estensivi, dimostriamo che RAVEN supera significativamente ATLAS e raggiunge risultati comparabili ai modelli linguistici più avanzati in determinati scenari, nonostante abbia un numero sostanzialmente inferiore di parametri. Il nostro lavoro sottolinea il potenziale dei modelli linguistici encoder-decoder potenziati dal retrieval per l'apprendimento in contesto e incoraggia ulteriori ricerche in questa direzione.

English

In this paper, we investigate the in-context learning ability of retrieval-augmented encoder-decoder language models. We first conduct a comprehensive analysis of the state-of-the-art ATLAS model and identify its limitations in in-context learning, primarily due to a mismatch between pretraining and testing, as well as a restricted context length. To address these issues, we propose RAVEN, a model that combines retrieval-augmented masked language modeling and prefix language modeling. We further introduce Fusion-in-Context Learning to enhance the few-shot performance by enabling the model to leverage more in-context examples without requiring additional training or model modifications. Through extensive experiments, we demonstrate that RAVEN significantly outperforms ATLAS and achieves results comparable to the most advanced language models in certain scenarios, despite having substantially fewer parameters. Our work underscores the potential of retrieval-augmented encoder-decoder language models for in-context learning and encourages further research in this direction.

RAVEN: Apprendimento in-Contesto con Modelli Linguistici Encoder-Decoder Potenziati dal Recupero delle Informazioni

RAVEN: In-Context Learning with Retrieval Augmented Encoder-Decoder Language Models

Abstract

Support