OpenCoder: 최상위 코드 대형 언어 모델을 위한 오픈 쿡북OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models
코드를 위한 대형 언어 모델(LLMs)은 코드 생성, 추론 작업, 에이전트 시스템 등 다양한 분야에서 필수적인 도구로 자리 잡았습니다. 오픈 액세스 코드 LLMs는 점차 독점 모델의 성능 수준에 근접하고 있지만, 엄격한 과학적 연구에 적합한 고품질 코드 LLMs, 특히 재현 가능한 데이터 처리 파이프라인과 투명한 훈련 프로토콜을 갖춘 모델은 여전히 제한적입니다. 이러한 부족은 자원 제약, 윤리적 고려사항, 그리고 모델의 선진성을 유지하려는 경쟁적 이점 등 다양한 도전 과제에 기인합니다. 이러한 격차를 해소하기 위해, 우리는 OpenCoder를 소개합니다. 이는 선도적인 모델과 견줄 만한 성능을 달성할 뿐만 아니라 연구 커뮤니티를 위한 "오픈 쿡북" 역할을 하는 최상위 코드 LLM입니다. 대부분의 기존 노력과 달리, 우리는 모델 가중치와 추론 코드뿐만 아니라 재현 가능한 훈련 데이터, 완전한 데이터 처리 파이프라인, 엄격한 실험적 절제 결과, 그리고 공개 과학 연구를 위한 상세한 훈련 프로토콜을 공개합니다. 이 포괄적인 공개를 통해, 우리는 최상위 코드 LLM을 구축하기 위한 핵심 요소를 확인했습니다: (1) 코드 최적화 휴리스틱 규칙과 데이터 중복 제거 방법, (2) 코드와 관련된 텍스트 코퍼스의 회상, 그리고 (3) 어닐링 및 지도 미세 조정 단계에서의 고품질 합성 데이터. 이러한 수준의 개방성을 제공함으로써, 우리는 OpenCoder가 강력한 모델이자 연구를 가속화하고 코드 AI 분야에서 재현 가능한 진보를 가능하게 하는 개방된 기반으로서, 최상위 코드 LLM의 모든 측면에 대한 접근성을 확대하고자 합니다.