ChatPaper.aiChatPaper

RAVEN: 검색 강화 인코더-디코더 언어 모델을 활용한 인-컨텍스트 학습

RAVEN: In-Context Learning with Retrieval Augmented Encoder-Decoder Language Models

August 15, 2023
저자: Jie Huang, Wei Ping, Peng Xu, Mohammad Shoeybi, Kevin Chen-Chuan Chang, Bryan Catanzaro
cs.AI

초록

본 논문에서는 검색 기반 인코더-디코더 언어 모델의 인컨텍스트 학습 능력을 조사한다. 먼저 최신 ATLAS 모델에 대한 포괄적인 분석을 수행하고, 사전 학습과 테스트 간의 불일치 및 제한된 컨텍스트 길이로 인한 인컨텍스트 학습의 한계를 확인한다. 이러한 문제를 해결하기 위해, 검색 기반 마스크 언어 모델링과 프리픽스 언어 모델링을 결합한 RAVEN 모델을 제안한다. 또한, 추가 학습이나 모델 수정 없이 더 많은 인컨텍스트 예제를 활용할 수 있도록 하는 Fusion-in-Context Learning을 도입하여 퓨샷 성능을 향상시킨다. 광범위한 실험을 통해 RAVEN이 ATLAS를 크게 능가하며, 특정 시나리오에서 가장 진보된 언어 모델과 비슷한 결과를 달성함을 보여준다. 이는 매개변수가 훨씬 적음에도 불구하고 가능한 일이다. 본 연구는 인컨텍스트 학습을 위한 검색 기반 인코더-디코더 언어 모델의 잠재력을 강조하며, 이 방향으로의 추가 연구를 촉구한다.
English
In this paper, we investigate the in-context learning ability of retrieval-augmented encoder-decoder language models. We first conduct a comprehensive analysis of the state-of-the-art ATLAS model and identify its limitations in in-context learning, primarily due to a mismatch between pretraining and testing, as well as a restricted context length. To address these issues, we propose RAVEN, a model that combines retrieval-augmented masked language modeling and prefix language modeling. We further introduce Fusion-in-Context Learning to enhance the few-shot performance by enabling the model to leverage more in-context examples without requiring additional training or model modifications. Through extensive experiments, we demonstrate that RAVEN significantly outperforms ATLAS and achieves results comparable to the most advanced language models in certain scenarios, despite having substantially fewer parameters. Our work underscores the potential of retrieval-augmented encoder-decoder language models for in-context learning and encourages further research in this direction.
PDF181December 15, 2024