ChatPaper.aiChatPaper

XGen-7B Technischer Bericht

XGen-7B Technical Report

September 7, 2023
Autoren: Erik Nijkamp, Tian Xie, Hiroaki Hayashi, Bo Pang, Congying Xia, Chen Xing, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil Purushwalkam, Tong Niu, Wojciech Kryściński, Lidiya Murakhovs'ka, Prafulla Kumar Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat, Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Joty, Caiming Xiong
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) sind in verschiedenen Bereichen allgegenwärtig und verändern die Art und Weise, wie wir mit Informationen interagieren und Forschung betreiben. Die meisten leistungsstarken LLMs bleiben jedoch hinter proprietären Mauern verborgen, was den wissenschaftlichen Fortschritt behindert. Die meisten Open-Source-LLMs hingegen sind in ihrer Fähigkeit eingeschränkt, längere Sequenzlängen zu unterstützen, was eine wesentliche Voraussetzung für viele Aufgaben ist, die eine Inferenz über einen Eingabekontext erfordern. Um dies zu adressieren, haben wir XGen trainiert, eine Reihe von 7B-Parameter-Modellen mit einer Sequenzlänge von bis zu 8K und bis zu 1,5T Tokens. Wir haben die XGen-Modelle auch auf öffentlich zugänglichen Instruktionsdaten feinabgestimmt, wodurch ihre instruktionsoptimierten Gegenstücke (XGen-Inst) entstanden. Wir stellen unsere Modelle sowohl für Forschungsfortschritte als auch für kommerzielle Anwendungen als Open Source zur Verfügung. Unsere Bewertung auf Standard-Benchmarks zeigt, dass die XGen-Modelle vergleichbare oder bessere Ergebnisse erzielen, wenn sie mit state-of-the-art Open-Source-LLMs verglichen werden. Unsere gezielte Bewertung von Aufgaben zur Modellierung langer Sequenzen zeigt die Vorteile unserer 8K-Sequenzmodelle gegenüber 2K-Sequenz-Open-Source-LLMs.
English
Large Language Models (LLMs) have become ubiquitous across various domains, transforming the way we interact with information and conduct research. However, most high-performing LLMs remain confined behind proprietary walls, hindering scientific progress. Most open-source LLMs, on the other hand, are limited in their ability to support longer sequence lengths, which is a key requirement for many tasks that require inference over an input context. To address this, we have trained XGen, a series of 7B parameter models on up to 8K sequence length for up to 1.5T tokens. We have also finetuned the XGen models on public-domain instructional data, creating their instruction-tuned counterparts (XGen-Inst). We open-source our models for both research advancements and commercial applications. Our evaluation on standard benchmarks shows that XGen models achieve comparable or better results when compared with state-of-the-art open-source LLMs. Our targeted evaluation on long sequence modeling tasks shows the benefits of our 8K-sequence models over 2K-sequence open-source LLMs.

Summary

AI-Generated Summary

PDF80December 15, 2024