OpenELM:具有開源訓練和推理框架的高效語言模型系列OpenELM: An Efficient Language Model Family with Open-source Training
and Inference Framework
大型語言模型的可重現性和透明度對於推動開放研究、確保結果的可信度以及進行數據和模型偏見以及潛在風險的調查至關重要。為此,我們發布了OpenELM,這是一個最先進的開放式語言模型。OpenELM採用了一種逐層縮放策略,以有效地分配轉換器模型每一層中的參數,從而提高準確性。例如,當參數預算約為十億個參數時,OpenELM的準確性比OLMo提高了2.36%,同時需要的預訓練標記數量少了2倍。 與先前僅提供模型權重和推理代碼並在私有數據集上進行預訓練的做法不同,我們的發布包括了在公開可用數據集上訓練和評估語言模型的完整框架,包括訓練日誌、多個檢查點和預訓練配置。我們還發布了將模型轉換為MLX庫進行推理和在蘋果設備上進行微調的代碼。這一全面的發布旨在賦予和加強開放研究社區的能力,為未來的開放研究努力鋪平道路。 我們的源代碼以及預先訓練的模型權重和訓練配方可在https://github.com/apple/corenet 上找到。此外,\model 模型可以在HuggingFace上找到:https://huggingface.co/apple/OpenELM。