StarCoder 2 和 The Stack v2:下一代StarCoder 2 and The Stack v2: The Next Generation
BigCode项目是一个开放的科学合作项目,专注于负责任地开发用于代码的大型语言模型(Code LLMs),介绍了StarCoder2。我们与Software Heritage(SWH)合作,在他们的源代码存档的数字共享资源之上构建了The Stack v2。除了SWH存储库涵盖的619种编程语言之外,我们还精心选择其他高质量的数据源,如GitHub拉取请求、Kaggle笔记本和代码文档。这导致了一个训练集,比第一个StarCoder数据集大4倍。我们使用3.3到4.3万亿标记对StarCoder2模型进行了3B、7B和15B参数的训练,并在一套全面的Code LLM基准测试中进行了彻底评估。我们发现我们的小型模型StarCoder2-3B在大多数基准测试中优于其他相似规模的Code LLM,并且也优于StarCoderBase-15B。我们的大型模型StarCoder2-15B在性能上明显优于其他相近规模的模型。此外,它与CodeLlama-34B相匹配或优于后者,后者是其两倍大的模型。虽然DeepSeekCoder-33B是高资源语言代码补全的表现最佳模型,但我们发现StarCoder2-15B在数学和代码推理基准测试以及一些低资源语言上的表现优于它。我们通过OpenRAIL许可证提供模型权重,并通过发布源代码数据的SoftWare Heritage持久标识符(SWHIDs)确保了对训练数据的完全透明。