RAVEN: Aprendizaje en contexto con modelos de lenguaje de codificador-decodificador aumentados por recuperación
RAVEN: In-Context Learning with Retrieval Augmented Encoder-Decoder Language Models
August 15, 2023
Autores: Jie Huang, Wei Ping, Peng Xu, Mohammad Shoeybi, Kevin Chen-Chuan Chang, Bryan Catanzaro
cs.AI
Resumen
En este artículo, investigamos la capacidad de aprendizaje en contexto de modelos de lenguaje de codificador-decodificador aumentados con recuperación. Primero realizamos un análisis exhaustivo del modelo ATLAS, el estado del arte, e identificamos sus limitaciones en el aprendizaje en contexto, principalmente debido a una falta de correspondencia entre el preentrenamiento y las pruebas, así como a una longitud de contexto restringida. Para abordar estos problemas, proponemos RAVEN, un modelo que combina el modelado de lenguaje enmascarado aumentado con recuperación y el modelado de lenguaje con prefijos. Además, introducimos el Aprendizaje de Fusión en Contexto para mejorar el rendimiento en pocos ejemplos, permitiendo que el modelo aproveche más ejemplos en contexto sin requerir entrenamiento adicional o modificaciones del modelo. A través de experimentos extensos, demostramos que RAVEN supera significativamente a ATLAS y logra resultados comparables a los modelos de lenguaje más avanzados en ciertos escenarios, a pesar de tener sustancialmente menos parámetros. Nuestro trabajo subraya el potencial de los modelos de lenguaje de codificador-decodificador aumentados con recuperación para el aprendizaje en contexto y fomenta una mayor investigación en esta dirección.
English
In this paper, we investigate the in-context learning ability of
retrieval-augmented encoder-decoder language models. We first conduct a
comprehensive analysis of the state-of-the-art ATLAS model and identify its
limitations in in-context learning, primarily due to a mismatch between
pretraining and testing, as well as a restricted context length. To address
these issues, we propose RAVEN, a model that combines retrieval-augmented
masked language modeling and prefix language modeling. We further introduce
Fusion-in-Context Learning to enhance the few-shot performance by enabling the
model to leverage more in-context examples without requiring additional
training or model modifications. Through extensive experiments, we demonstrate
that RAVEN significantly outperforms ATLAS and achieves results comparable to
the most advanced language models in certain scenarios, despite having
substantially fewer parameters. Our work underscores the potential of
retrieval-augmented encoder-decoder language models for in-context learning and
encourages further research in this direction.