OpenCoder: 최상위 코드 대형 언어 모델을 위한 오픈 쿡북

OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models

November 7, 2024
저자: Siming Huang, Tianhao Cheng, Jason Klein Liu, Jiaran Hao, Liuyihan Song, Yang Xu, J. Yang, J. H. Liu, Chenchen Zhang, Linzheng Chai, Ruifeng Yuan, Zhaoxiang Zhang, Jie Fu, Qian Liu, Ge Zhang, Zili Wang, Yuan Qi, Yinghui Xu, Wei Chu
cs.AI

초록

코드를 위한 대형 언어 모델(LLMs)은 코드 생성, 추론 작업, 에이전트 시스템 등 다양한 분야에서 필수적인 도구로 자리 잡았습니다. 오픈 액세스 코드 LLMs는 점차 독점 모델의 성능 수준에 근접하고 있지만, 엄격한 과학적 연구에 적합한 고품질 코드 LLMs, 특히 재현 가능한 데이터 처리 파이프라인과 투명한 훈련 프로토콜을 갖춘 모델은 여전히 제한적입니다. 이러한 부족은 자원 제약, 윤리적 고려사항, 그리고 모델의 선진성을 유지하려는 경쟁적 이점 등 다양한 도전 과제에 기인합니다. 이러한 격차를 해소하기 위해, 우리는 OpenCoder를 소개합니다. 이는 선도적인 모델과 견줄 만한 성능을 달성할 뿐만 아니라 연구 커뮤니티를 위한 "오픈 쿡북" 역할을 하는 최상위 코드 LLM입니다. 대부분의 기존 노력과 달리, 우리는 모델 가중치와 추론 코드뿐만 아니라 재현 가능한 훈련 데이터, 완전한 데이터 처리 파이프라인, 엄격한 실험적 절제 결과, 그리고 공개 과학 연구를 위한 상세한 훈련 프로토콜을 공개합니다. 이 포괄적인 공개를 통해, 우리는 최상위 코드 LLM을 구축하기 위한 핵심 요소를 확인했습니다: (1) 코드 최적화 휴리스틱 규칙과 데이터 중복 제거 방법, (2) 코드와 관련된 텍스트 코퍼스의 회상, 그리고 (3) 어닐링 및 지도 미세 조정 단계에서의 고품질 합성 데이터. 이러한 수준의 개방성을 제공함으로써, 우리는 OpenCoder가 강력한 모델이자 연구를 가속화하고 코드 AI 분야에서 재현 가능한 진보를 가능하게 하는 개방된 기반으로서, 최상위 코드 LLM의 모든 측면에 대한 접근성을 확대하고자 합니다.
English
Large language models (LLMs) for code have become indispensable in various domains, including code generation, reasoning tasks and agent systems.While open-access code LLMs are increasingly approaching the performance levels of proprietary models, high-quality code LLMs suitable for rigorous scientific investigation, particularly those with reproducible data processing pipelines and transparent training protocols, remain limited. The scarcity is due to various challenges, including resource constraints, ethical considerations, and the competitive advantages of keeping models advanced. To address the gap, we introduce OpenCoder, a top-tier code LLM that not only achieves performance comparable to leading models but also serves as an ``open cookbook'' for the research community. Unlike most prior efforts, we release not only model weights and inference code, but also the reproducible training data, complete data processing pipeline, rigorous experimental ablation results, and detailed training protocols for open scientific research. Through this comprehensive release, we identify the key ingredients for building a top-tier code LLM: (1) code optimized heuristic rules for data cleaning and methods for data deduplication, (2) recall of text corpus related to code and (3) high-quality synthetic data in both annealing and supervised fine-tuning stages. By offering this level of openness, we aim to broaden access to all aspects of a top-tier code LLM, with OpenCoder serving as both a powerful model and an open foundation to accelerate research, and enable reproducible advancements in code AI.

Summary

AI-Generated Summary

PDF1086November 13, 2024