StarCoder 2 und The Stack v2: Die nächste GenerationStarCoder 2 and The Stack v2: The Next Generation
Das BigCode-Projekt, eine offene wissenschaftliche Zusammenarbeit, die sich auf die verantwortungsvolle Entwicklung von Large Language Models für Code (Code LLMs) konzentriert, stellt StarCoder2 vor. In Partnerschaft mit Software Heritage (SWH) bauen wir The Stack v2 auf der Grundlage des digitalen Gemeinguts ihres Quellcode-Archivs auf. Neben den SWH-Repositories, die 619 Programmiersprachen umfassen, wählen wir sorgfältig andere hochwertige Datenquellen aus, wie GitHub-Pull-Requests, Kaggle-Notebooks und Code-Dokumentationen. Dies führt zu einem Trainingsdatensatz, der 4-mal größer ist als der erste StarCoder-Datensatz. Wir trainieren StarCoder2-Modelle mit 3B, 7B und 15B Parametern auf 3,3 bis 4,3 Billionen Tokens und bewerten sie gründlich anhand eines umfassenden Satzes von Code-LLM-Benchmarks. Wir stellen fest, dass unser kleines Modell, StarCoder2-3B, die meisten anderen Code LLMs ähnlicher Größe auf den meisten Benchmarks übertrifft und auch StarCoderBase-15B übertrifft. Unser großes Modell, StarCoder2-15B, übertrifft andere Modelle vergleichbarer Größe deutlich. Darüber hinaus erreicht es das Niveau von oder übertrifft CodeLlama-34B, ein Modell, das mehr als doppelt so groß ist. Obwohl DeepSeekCoder-33B das leistungsstärkste Modell bei der Code-Vervollständigung für Hochressourcen-Sprachen ist, stellen wir fest, dass StarCoder2-15B es auf Benchmarks für Mathematik und Code-Argumentation sowie bei mehreren Niedrigressourcen-Sprachen übertrifft. Wir stellen die Modellgewichte unter einer OpenRAIL-Lizenz zur Verfügung und gewährleisten vollständige Transparenz bezüglich der Trainingsdaten, indem wir die SoftWare Heritage Persistent IDentifiers (SWHIDs) der Quellcode-Daten veröffentlichen.