ChatPaper.aiChatPaper

Rapporto Tecnico su XGen-7B

XGen-7B Technical Report

September 7, 2023
Autori: Erik Nijkamp, Tian Xie, Hiroaki Hayashi, Bo Pang, Congying Xia, Chen Xing, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil Purushwalkam, Tong Niu, Wojciech Kryściński, Lidiya Murakhovs'ka, Prafulla Kumar Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat, Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Joty, Caiming Xiong
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono diventati onnipresenti in vari ambiti, trasformando il modo in cui interagiamo con le informazioni e conduciamo ricerche. Tuttavia, la maggior parte degli LLM ad alte prestazioni rimane confinata dietro barriere proprietarie, ostacolando il progresso scientifico. D'altra parte, la maggior parte degli LLM open-source è limitata nella capacità di supportare sequenze più lunghe, un requisito chiave per molti compiti che richiedono inferenza su un contesto di input. Per affrontare questo problema, abbiamo addestrato XGen, una serie di modelli da 7 miliardi di parametri su sequenze fino a 8K token per un totale di 1,5 trilioni di token. Abbiamo inoltre perfezionato i modelli XGen su dati didattici di dominio pubblico, creando le loro versioni ottimizzate per istruzioni (XGen-Inst). Rendiamo open-source i nostri modelli sia per avanzamenti nella ricerca che per applicazioni commerciali. La nostra valutazione su benchmark standard mostra che i modelli XGen raggiungono risultati comparabili o migliori rispetto agli LLM open-source all'avanguardia. La nostra valutazione mirata su compiti di modellazione di sequenze lunghe evidenzia i vantaggi dei nostri modelli a 8K token rispetto agli LLM open-source a 2K token.
English
Large Language Models (LLMs) have become ubiquitous across various domains, transforming the way we interact with information and conduct research. However, most high-performing LLMs remain confined behind proprietary walls, hindering scientific progress. Most open-source LLMs, on the other hand, are limited in their ability to support longer sequence lengths, which is a key requirement for many tasks that require inference over an input context. To address this, we have trained XGen, a series of 7B parameter models on up to 8K sequence length for up to 1.5T tokens. We have also finetuned the XGen models on public-domain instructional data, creating their instruction-tuned counterparts (XGen-Inst). We open-source our models for both research advancements and commercial applications. Our evaluation on standard benchmarks shows that XGen models achieve comparable or better results when compared with state-of-the-art open-source LLMs. Our targeted evaluation on long sequence modeling tasks shows the benefits of our 8K-sequence models over 2K-sequence open-source LLMs.
PDF80December 15, 2024