StarCoder 2とThe Stack v2:次世代の進化StarCoder 2 and The Stack v2: The Next Generation
BigCodeプロジェクトは、コード向け大規模言語モデル(Code LLMs)の責任ある開発に焦点を当てたオープンサイエンスの共同プロジェクトであり、StarCoder2を発表しました。Software Heritage(SWH)とのパートナーシップの下、私たちは彼らのソースコードアーカイブのデジタルコモンズ上にThe Stack v2を構築しました。619のプログラミング言語にわたるSWHリポジトリに加え、GitHubのプルリクエスト、Kaggleのノートブック、コードドキュメントなどの高品質なデータソースを慎重に選定しました。これにより、最初のStarCoderデータセットの4倍の規模を持つトレーニングセットが作成されました。StarCoder2モデル(3B、7B、15Bパラメータ)を3.3兆から4.3兆トークンでトレーニングし、包括的なCode LLMベンチマークセットで徹底的に評価しました。その結果、小型モデルであるStarCoder2-3Bは、ほとんどのベンチマークで同サイズの他のCode LLMを上回り、StarCoderBase-15Bをも凌駕しました。大型モデルであるStarCoder2-15Bは、同サイズの他のモデルを大幅に上回り、さらにその2倍以上のサイズを持つCodeLlama-34Bに匹敵またはそれを上回る性能を示しました。DeepSeekCoder-33Bは高リソース言語におけるコード補完で最高の性能を発揮しますが、StarCoder2-15Bは数学およびコード推論のベンチマーク、およびいくつかの低リソース言語においてそれを上回りました。モデルの重みはOpenRAILライセンスの下で公開し、ソースコードデータのSoftWare Heritage永続識別子(SWHIDs)をリリースすることで、トレーニングデータに関する完全な透明性を確保しました。