MAP-Neo:高性能且透明的雙語大型語言模型系列MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model
Series
近年來,大型語言模型(LLMs)在不同任務上取得了前所未有的性能,取得了巨大進展。然而,由於商業利益,像GPT、Gemini和Claude等最具競爭力的模型被封閉在專有界面後,未公開訓練細節。最近,許多機構已經將幾個強大的LLMs(如LLaMA-3)開源,與現有的封閉式LLMs相媲美。然而,這些模型僅提供模型權重,大部分細節(例如中間檢查點、預訓練語料庫和訓練代碼等)未公開。為了提高LLMs的透明度,研究界已經開始開源真正開放的LLMs(如Pythia、Amber、OLMo),提供更多細節(例如預訓練語料庫和訓練代碼)。這些模型極大地推動了對這些大型模型的科學研究,包括它們的優勢、劣勢、偏見和風險。然而,我們觀察到,目前在推理、知識和編碼任務上的現有真正開放的LLMs仍遜於具有相似模型大小的現有最先進LLMs。為此,我們開源了MAP-Neo,這是一個具有高度能力和透明度的雙語語言模型,擁有從頭開始訓練的70億參數,在45億高質量標記上進行訓練。我們的MAP-Neo是第一個完全開源的雙語LLM,具有與現有最先進LLMs相媲美的性能。此外,我們開源了所有細節以重現我們的MAP-Neo,提供了經過清理的預訓練語料庫、數據清理流程、檢查點以及經過良好優化的訓練/評估框架。最後,我們希望我們的MAP-Neo將增強和加強開放研究社區,激發更多創新和創意,促進LLMs的進一步改進。