Meltemi:首个用于希腊语的开放式大型语言模型Meltemi: The first open Large Language Model for Greek
我们描述了第一个针对希腊语开发的开放式大型语言模型Meltemi 7B的发展和能力。Meltemi 7B拥有70亿参数,并在一个包含40亿标记的希腊语语料库上进行训练。为了开发Meltemi 7B,我们通过在希腊语语料库上进行持续预训练来改编Mistral。Meltemi 7B包含截至2023年9月的最新信息。此外,我们翻译和整理了一个希腊语指令语料库,用于指令微调一个名为Meltemi 7B Instruct的聊天模型。我们在为Meltemi 7B Instruct进行对齐和去除有毒内容时特别注意。开发的模型在广泛收集的评估语料库上进行评估,并呈现了提示和回复的示例。Meltemi 7B和Meltemi 7B Instruct均可在https://huggingface.co/ilsp上以Apache 2.0许可证获得。