ChatPaper.aiChatPaper

StarCoder: 소스 코드가 당신과 함께 하길!

StarCoder: may the source be with you!

May 9, 2023
저자: Raymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis Kocetkov, Chenghao Mou, Marc Marone, Christopher Akiki, Jia Li, Jenny Chim, Qian Liu, Evgenii Zheltonozhskii, Terry Yue Zhuo, Thomas Wang, Olivier Dehaene, Mishig Davaadorj, Joel Lamy-Poirier, João Monteiro, Oleh Shliazhko, Nicolas Gontier, Nicholas Meade, Armel Zebaze, Ming-Ho Yee, Logesh Kumar Umapathi, Jian Zhu, Benjamin Lipkin, Muhtasham Oblokulov, Zhiruo Wang, Rudra Murthy, Jason Stillerman, Siva Sankalp Patel, Dmitry Abulkhanov, Marco Zocca, Manan Dey, Zhihan Zhang, Nour Fahmy, Urvashi Bhattacharyya, Wenhao Yu, Swayam Singh, Sasha Luccioni, Paulo Villegas, Maxim Kunakov, Fedor Zhdanov, Manuel Romero, Tony Lee, Nadav Timor, Jennifer Ding, Claire Schlesinger, Hailey Schoelkopf, Jan Ebert, Tri Dao, Mayank Mishra, Alex Gu, Jennifer Robinson, Carolyn Jane Anderson, Brendan Dolan-Gavitt, Danish Contractor, Siva Reddy, Daniel Fried, Dzmitry Bahdanau, Yacine Jernite, Carlos Muñoz Ferrandis, Sean Hughes, Thomas Wolf, Arjun Guha, Leandro von Werra, Harm de Vries
cs.AI

초록

BigCode 커뮤니티는 코드 전용 대형 언어 모델(Code LLMs)의 책임 있는 개발을 위해 노력하는 오픈 과학적 협업체로, StarCoder와 StarCoderBase를 소개합니다. 이들은 15.5B 파라미터를 갖추고 있으며, 8K 컨텍스트 길이, 텍스트 채우기 기능, 그리고 멀티-쿼리 어텐션을 통해 빠른 대규모 배치 추론이 가능합니다. StarCoderBase는 The Stack에서 수집된 1조 토큰으로 학습되었는데, The Stack은 허가된 라이선스를 가진 GitHub 저장소의 대규모 컬렉션으로, 검사 도구와 옵트아웃 프로세스를 제공합니다. 우리는 StarCoderBase를 35B Python 토큰으로 미세 조정하여 StarCoder를 만들었습니다. 우리는 지금까지 가장 포괄적인 Code LLMs 평가를 수행했으며, StarCoderBase가 여러 프로그래밍 언어를 지원하는 모든 오픈 Code LLM을 능가하고 OpenAI의 code-cushman-001 모델과 동등하거나 더 나은 성능을 보임을 입증했습니다. 또한, StarCoder는 Python에 미세 조정된 모든 모델을 능가하며, HumanEval에서 40% pass@1을 달성할 수 있고, 다른 프로그래밍 언어에서도 여전히 뛰어난 성능을 유지합니다. 우리는 안전한 오픈 액세스 모델 출시를 위해 개선된 PII 편집 파이프라인과 새로운 속성 추적 도구를 포함한 여러 중요한 단계를 밟았으며, StarCoder 모델을 Open Responsible AI Model 라이선스의 더 상업적으로 실현 가능한 버전 하에 공개적으로 제공합니다.
English
The BigCode community, an open-scientific collaboration working on the responsible development of Large Language Models for Code (Code LLMs), introduces StarCoder and StarCoderBase: 15.5B parameter models with 8K context length, infilling capabilities and fast large-batch inference enabled by multi-query attention. StarCoderBase is trained on 1 trillion tokens sourced from The Stack, a large collection of permissively licensed GitHub repositories with inspection tools and an opt-out process. We fine-tuned StarCoderBase on 35B Python tokens, resulting in the creation of StarCoder. We perform the most comprehensive evaluation of Code LLMs to date and show that StarCoderBase outperforms every open Code LLM that supports multiple programming languages and matches or outperforms the OpenAI code-cushman-001 model. Furthermore, StarCoder outperforms every model that is fine-tuned on Python, can be prompted to achieve 40\% pass@1 on HumanEval, and still retains its performance on other programming languages. We take several important steps towards a safe open-access model release, including an improved PII redaction pipeline and a novel attribution tracing tool, and make the StarCoder models publicly available under a more commercially viable version of the Open Responsible AI Model license.
PDF313December 15, 2024