LLM360: На пути к полностью прозрачным открытым языковым моделям

Аннотация

Недавний всплеск в разработке открытых крупных языковых моделей (LLM), таких как LLaMA, Falcon и Mistral, предоставляет специалистам и исследователям в области ИИ разнообразные варианты для работы. Однако большинство LLM выпускают лишь частичные артефакты, такие как финальные веса модели или код для вывода, а технические отчеты всё чаще ограничиваются высокоуровневыми проектными решениями и поверхностной статистикой. Эти решения замедляют прогресс в области, снижая прозрачность процесса обучения LLM и вынуждая команды заново открывать множество деталей в процессе обучения. Мы представляем LLM360 — инициативу по полному открытию исходного кода LLM, которая выступает за предоставление сообществу всего обучающего кода и данных, контрольных точек модели и промежуточных результатов. Цель LLM360 — поддержать открытые и совместные исследования в области ИИ, сделав процесс обучения LLM от начала до конца прозрачным и воспроизводимым для всех. В качестве первого шага LLM360 мы выпускаем две LLM с 7 миллиардами параметров, предварительно обученные с нуля, — Amber и CrystalCoder, включая их обучающий код, данные, промежуточные контрольные точки и анализы (доступно на https://www.llm360.ai). Мы стремимся продолжать расширять границы возможностей LLM благодаря этому открытому проекту. Более крупные и мощные модели находятся в разработке и будут выпущены в будущем.

English

The recent surge in open-source Large Language Models (LLMs), such as LLaMA, Falcon, and Mistral, provides diverse options for AI practitioners and researchers. However, most LLMs have only released partial artifacts, such as the final model weights or inference code, and technical reports increasingly limit their scope to high-level design choices and surface statistics. These choices hinder progress in the field by degrading transparency into the training of LLMs and forcing teams to rediscover many details in the training process. We present LLM360, an initiative to fully open-source LLMs, which advocates for all training code and data, model checkpoints, and intermediate results to be made available to the community. The goal of LLM360 is to support open and collaborative AI research by making the end-to-end LLM training process transparent and reproducible by everyone. As a first step of LLM360, we release two 7B parameter LLMs pre-trained from scratch, Amber and CrystalCoder, including their training code, data, intermediate checkpoints, and analyses (at https://www.llm360.ai). We are committed to continually pushing the boundaries of LLMs through this open-source effort. More large-scale and stronger models are underway and will be released in the future.

LLM360: На пути к полностью прозрачным открытым языковым моделям

LLM360: Towards Fully Transparent Open-Source LLMs

Аннотация

Support