기반 모델의 장문맥 확장 효과성
Effective Long-Context Scaling of Foundation Models
September 27, 2023
저자: Wenhan Xiong, Jingyu Liu, Igor Molybog, Hejia Zhang, Prajjwal Bhargava, Rui Hou, Louis Martin, Rashi Rungta, Karthik Abinav Sankararaman, Barlas Oguz, Madian Khabsa, Han Fang, Yashar Mehdad, Sharan Narang, Kshitiz Malik, Angela Fan, Shruti Bhosale, Sergey Edunov, Mike Lewis, Sinong Wang, Hao Ma
cs.AI
초록
최대 32,768 토큰의 효과적인 컨텍스트 윈도우를 지원하는 일련의 장문 컨텍스트 LLM(Large Language Model) 시리즈를 제시합니다. 우리의 모델 시리즈는 Llama 2를 기반으로 더 긴 학습 시퀀스와 장문 텍스트가 업샘플링된 데이터셋을 통해 지속적인 사전 학습을 거쳐 구축되었습니다. 언어 모델링, 합성 컨텍스트 탐색 작업, 그리고 다양한 연구 벤치마크에 대한 광범위한 평가를 수행했습니다. 연구 벤치마크에서 우리의 모델은 Llama 2 대비 대부분의 일반 작업에서 일관된 개선을 보였으며, 특히 장문 컨텍스트 작업에서는 상당한 성능 향상을 달성했습니다. 주목할 만한 점은, 인간이 주석을 단 장문 명령어 데이터가 필요 없는 비용 효율적인 명령어 튜닝 절차를 통해 70B 변형 모델이 이미 gpt-3.5-turbo-16k의 전반적인 성능을 장문 컨텍스트 작업에서 능가할 수 있다는 것입니다. 이러한 결과와 함께, 우리는 방법론의 개별 구성 요소에 대한 심층 분석을 제공합니다. Llama의 위치 인코딩을 탐구하고 장기 의존성을 모델링하는 데 있어서의 한계를 논의합니다. 또한, 데이터 혼합 및 시퀀스 길이의 학습 커리큘럼을 포함한 사전 학습 과정에서의 다양한 설계 선택의 영향을 검토합니다. 우리의 제거 실험은 사전 학습 데이터셋에 풍부한 장문 텍스트가 강력한 성능을 달성하는 데 핵심이 아니라는 것을 시사하며, 장문 컨텍스트 지속적 사전 학습이 장문 시퀀스로 처음부터 사전 학습하는 것보다 더 효율적이고 유사하게 효과적임을 실증적으로 검증했습니다.
English
We present a series of long-context LLMs that support effective context
windows of up to 32,768 tokens. Our model series are built through continual
pretraining from Llama 2 with longer training sequences and on a dataset where
long texts are upsampled. We perform extensive evaluation on language modeling,
synthetic context probing tasks, and a wide range of research benchmarks. On
research benchmarks, our models achieve consistent improvements on most regular
tasks and significant improvements on long-context tasks over Llama 2. Notably,
with a cost-effective instruction tuning procedure that does not require
human-annotated long instruction data, the 70B variant can already surpass
gpt-3.5-turbo-16k's overall performance on a suite of long-context tasks.
Alongside these results, we provide an in-depth analysis on the individual
components of our method. We delve into Llama's position encodings and discuss
its limitation in modeling long dependencies. We also examine the impact of
various design choices in the pretraining process, including the data mix and
the training curriculum of sequence lengths -- our ablation experiments suggest
that having abundant long texts in the pretrain dataset is not the key to
achieving strong performance, and we empirically verify that long context
continual pretraining is more efficient and similarly effective compared to
pretraining from scratch with long sequences.