OpenELM: Эффективное семейство языковых моделей с открытой системой обучения и вывода.OpenELM: An Efficient Language Model Family with Open-source Training
and Inference Framework
Воспроизводимость и прозрачность больших языковых моделей крайне важны для продвижения открытого исследования, обеспечения надежности результатов и возможности изучения данных и модельных предвзятостей, а также потенциальных рисков. В этой связи мы выпускаем OpenELM, современную открытую языковую модель. OpenELM использует стратегию масштабирования слоев для эффективного распределения параметров в каждом слое модели трансформера, что приводит к улучшению точности. Например, при бюджете параметров около одного миллиарда параметров OpenELM показывает улучшение точности на 2,36% по сравнению с OLMo, требуя в 2 раза меньше токенов предварительного обучения. В отличие от предыдущих практик, предоставляющих только веса модели и код вывода, и предварительное обучение на частных наборах данных, наш выпуск включает полную структуру для обучения и оценки языковой модели на общедоступных наборах данных, включая журналы обучения, несколько контрольных точек и конфигурации предварительного обучения. Мы также предоставляем код для преобразования моделей в библиотеку MLX для вывода и настройки на устройствах Apple. Этот всесторонний выпуск направлен на поддержку и укрепление сообщества открытого исследования, прокладывая путь для будущих открытых исследовательских начинаний. Наш исходный код вместе с весами предварительно обученной модели и рецептами обучения доступен по адресу https://github.com/apple/corenet. Кроме того, модели можно найти на HuggingFace по ссылке: https://huggingface.co/apple/OpenELM.