StarCoder 2 和 The Stack v2:下一代StarCoder 2 and The Stack v2: The Next Generation
BigCode計劃是一個開放科學合作項目,專注於負責任地開發用於程式碼的大型語言模型(Code LLMs),並推出StarCoder2。我們與Software Heritage(SWH)合作,在其源代碼存檔的數位共享平台上構建了The Stack v2。除了SWH存儲的619種編程語言的存儲庫外,我們還精心挑選其他高質量的數據來源,如GitHub拉取請求、Kaggle筆記本和代碼文檔。這導致訓練集比第一個StarCoder數據集大4倍。我們使用3.3到4.3萬億令牌對StarCoder2模型進行了3B、7B和15B參數的訓練,並在一套全面的Code LLM基準測試中進行了全面評估。我們發現,我們的小型模型StarCoder2-3B在大多數基準測試中優於其他相同大小的Code LLM,並且優於StarCoderBase-15B。我們的大型模型StarCoder2-15B明顯優於其他相同大小的模型。此外,它與CodeLlama-34B匹敵,後者是其兩倍大小的模型。儘管DeepSeekCoder-33B是高資源語言代碼完成的表現最佳模型,但我們發現StarCoder2-15B在數學和代碼推理基準測試以及幾種低資源語言上的表現優於它。我們通過OpenRAIL許可證提供模型權重,並通過發布源代碼數據的SoftWare Heritage持久標識符(SWHIDs)確保訓練數據的完全透明。