RAVEN: Aprendizado em Contexto com Modelos de Linguagem Encoder-Decoder Aumentados por Recuperação
RAVEN: In-Context Learning with Retrieval Augmented Encoder-Decoder Language Models
August 15, 2023
Autores: Jie Huang, Wei Ping, Peng Xu, Mohammad Shoeybi, Kevin Chen-Chuan Chang, Bryan Catanzaro
cs.AI
Resumo
Neste artigo, investigamos a capacidade de aprendizado em contexto de modelos de linguagem codificador-decodificador aumentados por recuperação. Primeiramente, realizamos uma análise abrangente do modelo ATLAS, estado da arte, e identificamos suas limitações no aprendizado em contexto, principalmente devido a uma incompatibilidade entre o pré-treinamento e o teste, bem como a um comprimento de contexto restrito. Para abordar essas questões, propomos o RAVEN, um modelo que combina a modelagem de linguagem mascarada aumentada por recuperação e a modelagem de linguagem com prefixo. Além disso, introduzimos o Aprendizado de Fusão em Contexto para melhorar o desempenho em poucos exemplos, permitindo que o modelo aproveite mais exemplos em contexto sem a necessidade de treinamento adicional ou modificações no modelo. Por meio de experimentos extensivos, demonstramos que o RAVEN supera significativamente o ATLAS e alcança resultados comparáveis aos modelos de linguagem mais avançados em certos cenários, apesar de ter um número substancialmente menor de parâmetros. Nosso trabalho destaca o potencial dos modelos de linguagem codificador-decodificador aumentados por recuperação para o aprendizado em contexto e incentiva pesquisas adicionais nessa direção.
English
In this paper, we investigate the in-context learning ability of
retrieval-augmented encoder-decoder language models. We first conduct a
comprehensive analysis of the state-of-the-art ATLAS model and identify its
limitations in in-context learning, primarily due to a mismatch between
pretraining and testing, as well as a restricted context length. To address
these issues, we propose RAVEN, a model that combines retrieval-augmented
masked language modeling and prefix language modeling. We further introduce
Fusion-in-Context Learning to enhance the few-shot performance by enabling the
model to leverage more in-context examples without requiring additional
training or model modifications. Through extensive experiments, we demonstrate
that RAVEN significantly outperforms ATLAS and achieves results comparable to
the most advanced language models in certain scenarios, despite having
substantially fewer parameters. Our work underscores the potential of
retrieval-augmented encoder-decoder language models for in-context learning and
encourages further research in this direction.