XGen-7B 技術レポート
XGen-7B Technical Report
September 7, 2023
著者: Erik Nijkamp, Tian Xie, Hiroaki Hayashi, Bo Pang, Congying Xia, Chen Xing, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil Purushwalkam, Tong Niu, Wojciech Kryściński, Lidiya Murakhovs'ka, Prafulla Kumar Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat, Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Joty, Caiming Xiong
cs.AI
要旨
大規模言語モデル(LLMs)は、様々な領域で広く普及し、情報との相互作用や研究の進め方を変革しています。しかし、高性能なLLMsの多くは依然としてプロプライエタリな壁に囲まれており、科学の進歩を妨げています。一方、オープンソースのLLMsのほとんどは、入力コンテキストに対する推論を必要とする多くのタスクにおいて重要な要件である、長いシーケンス長をサポートする能力が限られています。この問題に対処するため、我々は最大8Kのシーケンス長で最大1.5Tトークンまで訓練した7BパラメータモデルのシリーズであるXGenを開発しました。また、XGenモデルをパブリックドメインの指示データでファインチューニングし、指示調整版(XGen-Inst)を作成しました。我々は、研究の進展と商業的応用の両方のために、これらのモデルをオープンソースとして公開します。標準ベンチマークでの評価では、XGenモデルは最先端のオープンソースLLMsと比較して同等またはそれ以上の結果を達成しています。長いシーケンスモデリングタスクに対するターゲット評価では、8Kシーケンスモデルが2KシーケンスのオープンソースLLMsよりも優れていることが示されています。
English
Large Language Models (LLMs) have become ubiquitous across various domains,
transforming the way we interact with information and conduct research.
However, most high-performing LLMs remain confined behind proprietary walls,
hindering scientific progress. Most open-source LLMs, on the other hand, are
limited in their ability to support longer sequence lengths, which is a key
requirement for many tasks that require inference over an input context. To
address this, we have trained XGen, a series of 7B parameter models on up to 8K
sequence length for up to 1.5T tokens. We have also finetuned the XGen models
on public-domain instructional data, creating their instruction-tuned
counterparts (XGen-Inst). We open-source our models for both research
advancements and commercial applications. Our evaluation on standard benchmarks
shows that XGen models achieve comparable or better results when compared with
state-of-the-art open-source LLMs. Our targeted evaluation on long sequence
modeling tasks shows the benefits of our 8K-sequence models over 2K-sequence
open-source LLMs.Summary
AI-Generated Summary