ChatPaper.aiChatPaper

XGen-7B Technisch Rapport

XGen-7B Technical Report

September 7, 2023
Auteurs: Erik Nijkamp, Tian Xie, Hiroaki Hayashi, Bo Pang, Congying Xia, Chen Xing, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil Purushwalkam, Tong Niu, Wojciech Kryściński, Lidiya Murakhovs'ka, Prafulla Kumar Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat, Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Joty, Caiming Xiong
cs.AI

Samenvatting

Grote Taalmodellen (LLMs) zijn alomtegenwoordig geworden in verschillende domeinen en hebben de manier waarop we met informatie omgaan en onderzoek uitvoeren getransformeerd. De meeste hoogpresterende LLMs blijven echter achter propriëtaire muren opgesloten, wat de wetenschappelijke vooruitgang belemmert. Aan de andere kant zijn de meeste open-source LLMs beperkt in hun vermogen om langere sequentielengtes te ondersteunen, wat een cruciale vereiste is voor veel taken die inferentie over een invoercontext vereisen. Om dit aan te pakken, hebben we XGen getraind, een reeks van 7B-parametermodellen met sequentielengtes tot 8K en getraind op maximaal 1,5T tokens. We hebben ook de XGen-modellen gefinetuned op instructiedata uit het publieke domein, waardoor hun instructie-afgestemde tegenhangers (XGen-Inst) zijn ontstaan. We maken onze modellen open-source voor zowel wetenschappelijke vooruitgang als commerciële toepassingen. Onze evaluatie op standaard benchmarks laat zien dat de XGen-modellen vergelijkbare of betere resultaten behalen in vergelijking met state-of-the-art open-source LLMs. Onze gerichte evaluatie op taken voor lange sequentiemodellering toont de voordelen van onze 8K-sequentiemodellen ten opzichte van 2K-sequentie open-source LLMs.
English
Large Language Models (LLMs) have become ubiquitous across various domains, transforming the way we interact with information and conduct research. However, most high-performing LLMs remain confined behind proprietary walls, hindering scientific progress. Most open-source LLMs, on the other hand, are limited in their ability to support longer sequence lengths, which is a key requirement for many tasks that require inference over an input context. To address this, we have trained XGen, a series of 7B parameter models on up to 8K sequence length for up to 1.5T tokens. We have also finetuned the XGen models on public-domain instructional data, creating their instruction-tuned counterparts (XGen-Inst). We open-source our models for both research advancements and commercial applications. Our evaluation on standard benchmarks shows that XGen models achieve comparable or better results when compared with state-of-the-art open-source LLMs. Our targeted evaluation on long sequence modeling tasks shows the benefits of our 8K-sequence models over 2K-sequence open-source LLMs.
PDF80December 15, 2024