OpenCoder : Le Guide Ouvert pour les ModĂšles de Langage de Code Haut de GammeOpenCoder: The Open Cookbook for Top-Tier Code Large Language Models
Les grands modÚles de langage (LLM) pour le code sont devenus indispensables dans divers domaines, notamment la génération de code, les tùches de raisonnement et les systÚmes d'agents. Bien que les LLM de code en accÚs libre se rapprochent de plus en plus des niveaux de performance des modÚles propriétaires, les LLM de code de haute qualité adaptés à des investigations scientifiques rigoureuses, en particulier ceux dotés de pipelines de traitement de données reproductibles et de protocoles d'entraßnement transparents, restent limités. Cette rareté est due à divers défis, notamment les contraintes de ressources, les considérations éthiques et les avantages concurrentiels liés au maintien de modÚles avancés. Pour combler cette lacune, nous présentons OpenCoder, un LLM de code de premier plan qui non seulement atteint des performances comparables aux modÚles leaders, mais sert également de « livre de recettes ouvert » pour la communauté de recherche. Contrairement à la plupart des efforts précédents, nous publions non seulement les poids du modÚle et le code d'inférence, mais également les données d'entraßnement reproductibles, le pipeline complet de traitement des données, les résultats rigoureux d'ablation expérimentale et les protocoles d'entraßnement détaillés pour la recherche scientifique ouverte. Grùce à cette publication exhaustive, nous identifions les éléments clés pour construire un LLM de code de premier plan : (1) des rÚgles heuristiques optimisées pour le nettoyage des données et des méthodes de déduplication des données, (2) la récupération de corpus textuels liés au code et (3) des données synthétiques de haute qualité aux étapes de recuit et de réglage fin supervisé. En offrant ce niveau d'ouverture, nous visons à élargir l'accÚs à tous les aspects d'un LLM de code de premier plan, avec OpenCoder servant à la fois de modÚle puissant et de fondation ouverte pour accélérer la recherche et permettre des avancées reproductibles dans l'IA pour le code.