ChatPaper.aiChatPaper

Технический отчет по XGen-7B

XGen-7B Technical Report

September 7, 2023
Авторы: Erik Nijkamp, Tian Xie, Hiroaki Hayashi, Bo Pang, Congying Xia, Chen Xing, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil Purushwalkam, Tong Niu, Wojciech Kryściński, Lidiya Murakhovs'ka, Prafulla Kumar Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat, Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Joty, Caiming Xiong
cs.AI

Аннотация

Крупные языковые модели (LLM) стали повсеместно применяться в различных областях, трансформируя способы взаимодействия с информацией и проведения исследований. Однако большинство высокопроизводительных LLM остаются закрытыми, что препятствует научному прогрессу. С другой стороны, большинство открытых LLM ограничены в своей способности поддерживать более длинные последовательности, что является ключевым требованием для многих задач, требующих вывода на основе входного контекста. Для решения этой проблемы мы обучили XGen — серию моделей с 7 миллиардами параметров, поддерживающих последовательности длиной до 8 тысяч токенов, на корпусе объемом до 1,5 триллионов токенов. Мы также дообучили модели XGen на данных из открытых источников, создав их версии, адаптированные для выполнения инструкций (XGen-Inst). Мы открываем исходный код наших моделей для использования в научных исследованиях и коммерческих приложениях. Наши оценки на стандартных бенчмарках показывают, что модели XGen демонстрируют сопоставимые или лучшие результаты по сравнению с современными открытыми LLM. Целевые оценки на задачах, связанных с моделированием длинных последовательностей, демонстрируют преимущества наших моделей с 8-тысячными последовательностями перед открытыми LLM, поддерживающими 2-тысячные последовательности.
English
Large Language Models (LLMs) have become ubiquitous across various domains, transforming the way we interact with information and conduct research. However, most high-performing LLMs remain confined behind proprietary walls, hindering scientific progress. Most open-source LLMs, on the other hand, are limited in their ability to support longer sequence lengths, which is a key requirement for many tasks that require inference over an input context. To address this, we have trained XGen, a series of 7B parameter models on up to 8K sequence length for up to 1.5T tokens. We have also finetuned the XGen models on public-domain instructional data, creating their instruction-tuned counterparts (XGen-Inst). We open-source our models for both research advancements and commercial applications. Our evaluation on standard benchmarks shows that XGen models achieve comparable or better results when compared with state-of-the-art open-source LLMs. Our targeted evaluation on long sequence modeling tasks shows the benefits of our 8K-sequence models over 2K-sequence open-source LLMs.

Summary

AI-Generated Summary

PDF80December 15, 2024