ChatPaper.aiChatPaper

StarCoder 2 und The Stack v2: Die nächste Generation

StarCoder 2 and The Stack v2: The Next Generation

February 29, 2024
Autoren: Anton Lozhkov, Raymond Li, Loubna Ben Allal, Federico Cassano, Joel Lamy-Poirier, Nouamane Tazi, Ao Tang, Dmytro Pykhtar, Jiawei Liu, Yuxiang Wei, Tianyang Liu, Max Tian, Denis Kocetkov, Arthur Zucker, Younes Belkada, Zijian Wang, Qian Liu, Dmitry Abulkhanov, Indraneil Paul, Zhuang Li, Wen-Ding Li, Megan Risdal, Jia Li, Jian Zhu, Terry Yue Zhuo, Evgenii Zheltonozhskii, Nii Osae Osae Dade, Wenhao Yu, Lucas Krauß, Naman Jain, Yixuan Su, Xuanli He, Manan Dey, Edoardo Abati, Yekun Chai, Niklas Muennighoff, Xiangru Tang, Muhtasham Oblokulov, Christopher Akiki, Marc Marone, Chenghao Mou, Mayank Mishra, Alex Gu, Binyuan Hui, Tri Dao, Armel Zebaze, Olivier Dehaene, Nicolas Patry, Canwen Xu, Julian McAuley, Han Hu, Torsten Scholak, Sebastien Paquet, Jennifer Robinson, Carolyn Jane Anderson, Nicolas Chapados, Mostofa Patwary, Nima Tajbakhsh, Yacine Jernite, Carlos Muñoz Ferrandis, Lingming Zhang, Sean Hughes, Thomas Wolf, Arjun Guha, Leandro von Werra, Harm de Vries
cs.AI

Zusammenfassung

Das BigCode-Projekt, eine offene wissenschaftliche Zusammenarbeit, die sich auf die verantwortungsvolle Entwicklung von Large Language Models für Code (Code LLMs) konzentriert, stellt StarCoder2 vor. In Partnerschaft mit Software Heritage (SWH) bauen wir The Stack v2 auf der Grundlage des digitalen Gemeinguts ihres Quellcode-Archivs auf. Neben den SWH-Repositories, die 619 Programmiersprachen umfassen, wählen wir sorgfältig andere hochwertige Datenquellen aus, wie GitHub-Pull-Requests, Kaggle-Notebooks und Code-Dokumentationen. Dies führt zu einem Trainingsdatensatz, der 4-mal größer ist als der erste StarCoder-Datensatz. Wir trainieren StarCoder2-Modelle mit 3B, 7B und 15B Parametern auf 3,3 bis 4,3 Billionen Tokens und bewerten sie gründlich anhand eines umfassenden Satzes von Code-LLM-Benchmarks. Wir stellen fest, dass unser kleines Modell, StarCoder2-3B, die meisten anderen Code LLMs ähnlicher Größe auf den meisten Benchmarks übertrifft und auch StarCoderBase-15B übertrifft. Unser großes Modell, StarCoder2-15B, übertrifft andere Modelle vergleichbarer Größe deutlich. Darüber hinaus erreicht es das Niveau von oder übertrifft CodeLlama-34B, ein Modell, das mehr als doppelt so groß ist. Obwohl DeepSeekCoder-33B das leistungsstärkste Modell bei der Code-Vervollständigung für Hochressourcen-Sprachen ist, stellen wir fest, dass StarCoder2-15B es auf Benchmarks für Mathematik und Code-Argumentation sowie bei mehreren Niedrigressourcen-Sprachen übertrifft. Wir stellen die Modellgewichte unter einer OpenRAIL-Lizenz zur Verfügung und gewährleisten vollständige Transparenz bezüglich der Trainingsdaten, indem wir die SoftWare Heritage Persistent IDentifiers (SWHIDs) der Quellcode-Daten veröffentlichen.
English
The BigCode project, an open-scientific collaboration focused on the responsible development of Large Language Models for Code (Code LLMs), introduces StarCoder2. In partnership with Software Heritage (SWH), we build The Stack v2 on top of the digital commons of their source code archive. Alongside the SWH repositories spanning 619 programming languages, we carefully select other high-quality data sources, such as GitHub pull requests, Kaggle notebooks, and code documentation. This results in a training set that is 4x larger than the first StarCoder dataset. We train StarCoder2 models with 3B, 7B, and 15B parameters on 3.3 to 4.3 trillion tokens and thoroughly evaluate them on a comprehensive set of Code LLM benchmarks. We find that our small model, StarCoder2-3B, outperforms other Code LLMs of similar size on most benchmarks, and also outperforms StarCoderBase-15B. Our large model, StarCoder2- 15B, significantly outperforms other models of comparable size. In addition, it matches or outperforms CodeLlama-34B, a model more than twice its size. Although DeepSeekCoder- 33B is the best-performing model at code completion for high-resource languages, we find that StarCoder2-15B outperforms it on math and code reasoning benchmarks, as well as several low-resource languages. We make the model weights available under an OpenRAIL license and ensure full transparency regarding the training data by releasing the SoftWare Heritage persistent IDentifiers (SWHIDs) of the source code data.
PDF1475December 15, 2024