Rapport Technique sur XGen-7B
XGen-7B Technical Report
September 7, 2023
Auteurs: Erik Nijkamp, Tian Xie, Hiroaki Hayashi, Bo Pang, Congying Xia, Chen Xing, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil Purushwalkam, Tong Niu, Wojciech Kryściński, Lidiya Murakhovs'ka, Prafulla Kumar Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat, Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Joty, Caiming Xiong
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) sont devenus omniprésents dans divers domaines, transformant notre manière d'interagir avec l'information et de mener des recherches. Cependant, la plupart des LLMs à hautes performances restent confinés derrière des barrières propriétaires, entravant ainsi les progrès scientifiques. D'un autre côté, la majorité des LLMs open source sont limités dans leur capacité à supporter des séquences de longue durée, une exigence clé pour de nombreuses tâches nécessitant une inférence sur un contexte d'entrée. Pour remédier à cela, nous avons entraîné XGen, une série de modèles à 7 milliards de paramètres sur des séquences allant jusqu'à 8 000 tokens, pour un total de 1,5 trillion de tokens. Nous avons également affiné les modèles XGen sur des données d'instruction du domaine public, créant ainsi leurs versions adaptées aux instructions (XGen-Inst). Nous rendons nos modèles open source à la fois pour les avancées de recherche et les applications commerciales. Notre évaluation sur des benchmarks standards montre que les modèles XGen obtiennent des résultats comparables ou supérieurs par rapport aux LLMs open source de pointe. Notre évaluation ciblée sur des tâches de modélisation de séquences longues met en évidence les avantages de nos modèles à 8 000 tokens par rapport aux LLMs open source à 2 000 tokens.
English
Large Language Models (LLMs) have become ubiquitous across various domains,
transforming the way we interact with information and conduct research.
However, most high-performing LLMs remain confined behind proprietary walls,
hindering scientific progress. Most open-source LLMs, on the other hand, are
limited in their ability to support longer sequence lengths, which is a key
requirement for many tasks that require inference over an input context. To
address this, we have trained XGen, a series of 7B parameter models on up to 8K
sequence length for up to 1.5T tokens. We have also finetuned the XGen models
on public-domain instructional data, creating their instruction-tuned
counterparts (XGen-Inst). We open-source our models for both research
advancements and commercial applications. Our evaluation on standard benchmarks
shows that XGen models achieve comparable or better results when compared with
state-of-the-art open-source LLMs. Our targeted evaluation on long sequence
modeling tasks shows the benefits of our 8K-sequence models over 2K-sequence
open-source LLMs.Summary
AI-Generated Summary