ChatPaper.aiChatPaper

Informe Técnico de XGen-7B

XGen-7B Technical Report

September 7, 2023
Autores: Erik Nijkamp, Tian Xie, Hiroaki Hayashi, Bo Pang, Congying Xia, Chen Xing, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil Purushwalkam, Tong Niu, Wojciech Kryściński, Lidiya Murakhovs'ka, Prafulla Kumar Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat, Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Joty, Caiming Xiong
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se han vuelto omnipresentes en diversos dominios, transformando la forma en que interactuamos con la información y llevamos a cabo investigaciones. Sin embargo, la mayoría de los LLMs de alto rendimiento permanecen confinados detrás de barreras propietarias, obstaculizando el progreso científico. Por otro lado, la mayoría de los LLMs de código abierto tienen limitaciones en su capacidad para manejar secuencias más largas, un requisito clave para muchas tareas que requieren inferencia sobre un contexto de entrada. Para abordar este problema, hemos entrenado XGen, una serie de modelos de 7B de parámetros con longitudes de secuencia de hasta 8K y hasta 1.5T de tokens. También hemos ajustado finamente los modelos XGen con datos instructivos de dominio público, creando sus versiones ajustadas para instrucciones (XGen-Inst). Hemos liberado nuestros modelos tanto para avances en investigación como para aplicaciones comerciales. Nuestra evaluación en benchmarks estándar muestra que los modelos XGen logran resultados comparables o superiores en comparación con los LLMs de código abierto más avanzados. Nuestra evaluación específica en tareas de modelado de secuencias largas demuestra los beneficios de nuestros modelos de 8K de secuencia frente a los LLMs de código abierto de 2K de secuencia.
English
Large Language Models (LLMs) have become ubiquitous across various domains, transforming the way we interact with information and conduct research. However, most high-performing LLMs remain confined behind proprietary walls, hindering scientific progress. Most open-source LLMs, on the other hand, are limited in their ability to support longer sequence lengths, which is a key requirement for many tasks that require inference over an input context. To address this, we have trained XGen, a series of 7B parameter models on up to 8K sequence length for up to 1.5T tokens. We have also finetuned the XGen models on public-domain instructional data, creating their instruction-tuned counterparts (XGen-Inst). We open-source our models for both research advancements and commercial applications. Our evaluation on standard benchmarks shows that XGen models achieve comparable or better results when compared with state-of-the-art open-source LLMs. Our targeted evaluation on long sequence modeling tasks shows the benefits of our 8K-sequence models over 2K-sequence open-source LLMs.

Summary

AI-Generated Summary

PDF80December 15, 2024