OpenCoder : Le Guide Ouvert pour les Modèles de Langage de Code Haut de Gamme
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models
November 7, 2024
Auteurs: Siming Huang, Tianhao Cheng, Jason Klein Liu, Jiaran Hao, Liuyihan Song, Yang Xu, J. Yang, J. H. Liu, Chenchen Zhang, Linzheng Chai, Ruifeng Yuan, Zhaoxiang Zhang, Jie Fu, Qian Liu, Ge Zhang, Zili Wang, Yuan Qi, Yinghui Xu, Wei Chu
cs.AI
Résumé
Les grands modèles de langage (LLM) pour le code sont devenus indispensables dans divers domaines, notamment la génération de code, les tâches de raisonnement et les systèmes d'agents. Bien que les LLM de code en accès libre se rapprochent de plus en plus des niveaux de performance des modèles propriétaires, les LLM de code de haute qualité adaptés à des investigations scientifiques rigoureuses, en particulier ceux dotés de pipelines de traitement de données reproductibles et de protocoles d'entraînement transparents, restent limités. Cette rareté est due à divers défis, notamment les contraintes de ressources, les considérations éthiques et les avantages concurrentiels liés au maintien de modèles avancés. Pour combler cette lacune, nous présentons OpenCoder, un LLM de code de premier plan qui non seulement atteint des performances comparables aux modèles leaders, mais sert également de « livre de recettes ouvert » pour la communauté de recherche. Contrairement à la plupart des efforts précédents, nous publions non seulement les poids du modèle et le code d'inférence, mais également les données d'entraînement reproductibles, le pipeline complet de traitement des données, les résultats rigoureux d'ablation expérimentale et les protocoles d'entraînement détaillés pour la recherche scientifique ouverte. Grâce à cette publication exhaustive, nous identifions les éléments clés pour construire un LLM de code de premier plan : (1) des règles heuristiques optimisées pour le nettoyage des données et des méthodes de déduplication des données, (2) la récupération de corpus textuels liés au code et (3) des données synthétiques de haute qualité aux étapes de recuit et de réglage fin supervisé. En offrant ce niveau d'ouverture, nous visons à élargir l'accès à tous les aspects d'un LLM de code de premier plan, avec OpenCoder servant à la fois de modèle puissant et de fondation ouverte pour accélérer la recherche et permettre des avancées reproductibles dans l'IA pour le code.
English
Large language models (LLMs) for code have become indispensable in various
domains, including code generation, reasoning tasks and agent systems.While
open-access code LLMs are increasingly approaching the performance levels of
proprietary models, high-quality code LLMs suitable for rigorous scientific
investigation, particularly those with reproducible data processing pipelines
and transparent training protocols, remain limited. The scarcity is due to
various challenges, including resource constraints, ethical considerations, and
the competitive advantages of keeping models advanced. To address the gap, we
introduce OpenCoder, a top-tier code LLM that not only achieves performance
comparable to leading models but also serves as an ``open cookbook'' for the
research community. Unlike most prior efforts, we release not only model
weights and inference code, but also the reproducible training data, complete
data processing pipeline, rigorous experimental ablation results, and detailed
training protocols for open scientific research. Through this comprehensive
release, we identify the key ingredients for building a top-tier code LLM: (1)
code optimized heuristic rules for data cleaning and methods for data
deduplication, (2) recall of text corpus related to code and (3) high-quality
synthetic data in both annealing and supervised fine-tuning stages. By offering
this level of openness, we aim to broaden access to all aspects of a top-tier
code LLM, with OpenCoder serving as both a powerful model and an open
foundation to accelerate research, and enable reproducible advancements in code
AI.Summary
AI-Generated Summary