ChatPaper.aiChatPaper

Relatório Técnico do XGen-7B

XGen-7B Technical Report

September 7, 2023
Autores: Erik Nijkamp, Tian Xie, Hiroaki Hayashi, Bo Pang, Congying Xia, Chen Xing, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil Purushwalkam, Tong Niu, Wojciech Kryściński, Lidiya Murakhovs'ka, Prafulla Kumar Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat, Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Joty, Caiming Xiong
cs.AI

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) tornaram-se onipresentes em diversos domínios, transformando a forma como interagimos com informações e conduzimos pesquisas. No entanto, a maioria dos LLMs de alto desempenho permanece confinada atrás de barreiras proprietárias, dificultando o progresso científico. Por outro lado, a maioria dos LLMs de código aberto é limitada em sua capacidade de suportar comprimentos de sequência mais longos, um requisito essencial para muitas tarefas que exigem inferência sobre um contexto de entrada. Para abordar essa questão, treinamos o XGen, uma série de modelos com 7 bilhões de parâmetros, com comprimentos de sequência de até 8K e até 1,5 trilhão de tokens. Também ajustamos finamente os modelos XGen em dados instrucionais de domínio público, criando suas versões ajustadas para instruções (XGen-Inst). Disponibilizamos nossos modelos em código aberto tanto para avanços na pesquisa quanto para aplicações comerciais. Nossa avaliação em benchmarks padrão mostra que os modelos XGen alcançam resultados comparáveis ou superiores quando comparados com os LLMs de código aberto mais avançados. Nossa avaliação direcionada em tarefas de modelagem de sequências longas demonstra os benefícios de nossos modelos de 8K sequências em relação aos LLMs de código aberto com 2K sequências.
English
Large Language Models (LLMs) have become ubiquitous across various domains, transforming the way we interact with information and conduct research. However, most high-performing LLMs remain confined behind proprietary walls, hindering scientific progress. Most open-source LLMs, on the other hand, are limited in their ability to support longer sequence lengths, which is a key requirement for many tasks that require inference over an input context. To address this, we have trained XGen, a series of 7B parameter models on up to 8K sequence length for up to 1.5T tokens. We have also finetuned the XGen models on public-domain instructional data, creating their instruction-tuned counterparts (XGen-Inst). We open-source our models for both research advancements and commercial applications. Our evaluation on standard benchmarks shows that XGen models achieve comparable or better results when compared with state-of-the-art open-source LLMs. Our targeted evaluation on long sequence modeling tasks shows the benefits of our 8K-sequence models over 2K-sequence open-source LLMs.
PDF80December 15, 2024