Meltemi: Первая открытая большая языковая модель для греческого языкаMeltemi: The first open Large Language Model for Greek
Мы описываем разработку и возможности Meltemi 7B, первой открытой большой языковой модели для греческого языка. Meltemi 7B имеет 7 миллиардов параметров и обучается на корпусе греческого языка объемом 40 миллиардов токенов. Для разработки Meltemi 7B мы адаптировали Mistral, продолжая предварительное обучение на греческом корпусе. Meltemi 7B содержит актуальную информацию по состоянию на сентябрь 2023 года. Кроме того, мы перевели и отредактировали корпус греческих инструкций, который использовался для настройки чат-модели под названием Meltemi 7B Instruct. Было уделено особое внимание выравниванию и удалению токсичного контента для Meltemi 7B Instruct. Разработанные модели оцениваются на широком наборе собранных оценочных корпусов, и приводятся примеры подсказок и ответов. Обе модели, Meltemi 7B и Meltemi 7B Instruct, доступны на https://huggingface.co/ilsp под лицензией Apache 2.0.