XGen-7B 기술 보고서
XGen-7B Technical Report
September 7, 2023
저자: Erik Nijkamp, Tian Xie, Hiroaki Hayashi, Bo Pang, Congying Xia, Chen Xing, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil Purushwalkam, Tong Niu, Wojciech Kryściński, Lidiya Murakhovs'ka, Prafulla Kumar Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat, Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Joty, Caiming Xiong
cs.AI
초록
대규모 언어 모델(LLMs)은 다양한 분야에서 보편적으로 사용되며, 정보와 상호작용하고 연구를 수행하는 방식을 혁신적으로 변화시키고 있습니다. 그러나 대부분의 고성능 LLM은 여전히 독점적인 벽 안에 갇혀 있어 과학적 진전을 저해하고 있습니다. 반면, 대부분의 오픈소스 LLM은 더 긴 시퀀스 길이를 지원하는 능력이 제한적이며, 이는 입력 컨텍스트에 대한 추론이 필요한 많은 작업에서 핵심 요구 사항입니다. 이를 해결하기 위해 우리는 최대 8K 시퀀스 길이와 최대 1.5T 토큰으로 7B 파라미터 모델 시리즈인 XGen을 학습시켰습니다. 또한 공개 도메인의 지시 데이터를 활용해 XGen 모델을 미세 조정하여 지시 튜닝 버전(XGen-Inst)을 생성했습니다. 우리는 연구 발전과 상업적 응용을 위해 이 모델들을 오픈소스로 공개합니다. 표준 벤치마크에서의 평가 결과, XGen 모델은 최신 오픈소스 LLM과 비교해 비슷하거나 더 나은 성능을 보여줍니다. 또한, 긴 시퀀스 모델링 작업에 대한 특화된 평가를 통해 8K 시퀀스 모델이 2K 시퀀스 오픈소스 LLM보다 우수한 성능을 보이는 것을 확인했습니다.
English
Large Language Models (LLMs) have become ubiquitous across various domains,
transforming the way we interact with information and conduct research.
However, most high-performing LLMs remain confined behind proprietary walls,
hindering scientific progress. Most open-source LLMs, on the other hand, are
limited in their ability to support longer sequence lengths, which is a key
requirement for many tasks that require inference over an input context. To
address this, we have trained XGen, a series of 7B parameter models on up to 8K
sequence length for up to 1.5T tokens. We have also finetuned the XGen models
on public-domain instructional data, creating their instruction-tuned
counterparts (XGen-Inst). We open-source our models for both research
advancements and commercial applications. Our evaluation on standard benchmarks
shows that XGen models achieve comparable or better results when compared with
state-of-the-art open-source LLMs. Our targeted evaluation on long sequence
modeling tasks shows the benefits of our 8K-sequence models over 2K-sequence
open-source LLMs.Summary
AI-Generated Summary