InCoder-32B : Modèle Fondamental de Code pour les Scénarios Industriels

Résumé

Les grands modèles de langage de code récents ont réalisé des progrès remarquables dans les tâches de programmation générales. Néanmoins, leurs performances se dégradent significativement dans les scénarios industriels nécessitant un raisonnement sur la sémantique matérielle, des constructions linguistiques spécialisées et des contraintes de ressources strictes. Pour relever ces défis, nous présentons InCoder-32B (Industrial-Coder-32B), le premier modèle de fondation de code à 32 milliards de paramètres unifiant l'intelligence du code à travers la conception de puces, l'optimisation de noyaux GPU, les systèmes embarqués, l'optimisation de compilateurs et la modélisation 3D. En adoptant une architecture efficace, nous entraînons InCoder-32B à partir de zéro avec un pré-entraînement sur du code général, un recuit sur du code industriel sélectionné, un entraînement intermédiaire étendant progressivement le contexte de 8 000 à 128 000 jetons avec des données de raisonnement industriel synthétiques, et un post-entraînement avec vérification fondée sur l'exécution. Nous menons une évaluation approfondie sur 14 benchmarks de code général principaux et 9 benchmarks industriels couvrant 4 domaines spécialisés. Les résultats montrent qu'InCoder-32B atteint des performances très compétitives sur les tâches générales tout en établissant de solides bases open-source à travers les domaines industriels.

English

Recent code large language models have achieved remarkable progress on general programming tasks. Nevertheless, their performance degrades significantly in industrial scenarios that require reasoning about hardware semantics, specialized language constructs, and strict resource constraints. To address these challenges, we introduce InCoder-32B (Industrial-Coder-32B), the first 32B-parameter code foundation model unifying code intelligence across chip design, GPU kernel optimization, embedded systems, compiler optimization, and 3D modeling. By adopting an efficient architecture, we train InCoder-32B from scratch with general code pre-training, curated industrial code annealing, mid-training that progressively extends context from 8K to 128K tokens with synthetic industrial reasoning data, and post-training with execution-grounded verification. We conduct extensive evaluation on 14 mainstream general code benchmarks and 9 industrial benchmarks spanning 4 specialized domains. Results show InCoder-32B achieves highly competitive performance on general tasks while establishing strong open-source baselines across industrial domains.

InCoder-32B : Modèle Fondamental de Code pour les Scénarios Industriels

InCoder-32B: Code Foundation Model for Industrial Scenarios

Résumé

Support