OpenCoder : Le Guide Ouvert pour les Modèles de Langage de Code Haut de Gamme

OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models

November 7, 2024
Auteurs: Siming Huang, Tianhao Cheng, Jason Klein Liu, Jiaran Hao, Liuyihan Song, Yang Xu, J. Yang, J. H. Liu, Chenchen Zhang, Linzheng Chai, Ruifeng Yuan, Zhaoxiang Zhang, Jie Fu, Qian Liu, Ge Zhang, Zili Wang, Yuan Qi, Yinghui Xu, Wei Chu
cs.AI

Résumé

Les grands modèles de langage (LLM) pour le code sont devenus indispensables dans divers domaines, notamment la génération de code, les tâches de raisonnement et les systèmes d'agents. Bien que les LLM de code en accès libre se rapprochent de plus en plus des niveaux de performance des modèles propriétaires, les LLM de code de haute qualité adaptés à des investigations scientifiques rigoureuses, en particulier ceux dotés de pipelines de traitement de données reproductibles et de protocoles d'entraînement transparents, restent limités. Cette rareté est due à divers défis, notamment les contraintes de ressources, les considérations éthiques et les avantages concurrentiels liés au maintien de modèles avancés. Pour combler cette lacune, nous présentons OpenCoder, un LLM de code de premier plan qui non seulement atteint des performances comparables aux modèles leaders, mais sert également de « livre de recettes ouvert » pour la communauté de recherche. Contrairement à la plupart des efforts précédents, nous publions non seulement les poids du modèle et le code d'inférence, mais également les données d'entraînement reproductibles, le pipeline complet de traitement des données, les résultats rigoureux d'ablation expérimentale et les protocoles d'entraînement détaillés pour la recherche scientifique ouverte. Grâce à cette publication exhaustive, nous identifions les éléments clés pour construire un LLM de code de premier plan : (1) des règles heuristiques optimisées pour le nettoyage des données et des méthodes de déduplication des données, (2) la récupération de corpus textuels liés au code et (3) des données synthétiques de haute qualité aux étapes de recuit et de réglage fin supervisé. En offrant ce niveau d'ouverture, nous visons à élargir l'accès à tous les aspects d'un LLM de code de premier plan, avec OpenCoder servant à la fois de modèle puissant et de fondation ouverte pour accélérer la recherche et permettre des avancées reproductibles dans l'IA pour le code.
English
Large language models (LLMs) for code have become indispensable in various domains, including code generation, reasoning tasks and agent systems.While open-access code LLMs are increasingly approaching the performance levels of proprietary models, high-quality code LLMs suitable for rigorous scientific investigation, particularly those with reproducible data processing pipelines and transparent training protocols, remain limited. The scarcity is due to various challenges, including resource constraints, ethical considerations, and the competitive advantages of keeping models advanced. To address the gap, we introduce OpenCoder, a top-tier code LLM that not only achieves performance comparable to leading models but also serves as an ``open cookbook'' for the research community. Unlike most prior efforts, we release not only model weights and inference code, but also the reproducible training data, complete data processing pipeline, rigorous experimental ablation results, and detailed training protocols for open scientific research. Through this comprehensive release, we identify the key ingredients for building a top-tier code LLM: (1) code optimized heuristic rules for data cleaning and methods for data deduplication, (2) recall of text corpus related to code and (3) high-quality synthetic data in both annealing and supervised fine-tuning stages. By offering this level of openness, we aim to broaden access to all aspects of a top-tier code LLM, with OpenCoder serving as both a powerful model and an open foundation to accelerate research, and enable reproducible advancements in code AI.

Summary

AI-Generated Summary

PDF1086November 13, 2024