InCoder-32B: Ein Code-Foundation-Modell für industrielle Anwendungsszenarien

Zusammenfassung

Aktuelle Code-Großsprachmodelle haben bemerkenswerte Fortschritte bei allgemeinen Programmieraufgaben erzielt. Dennoch verschlechtert sich ihre Leistung in industriellen Szenarien erheblich, die das Schließen auf Hardwaresemantik, spezialisierte Sprachkonstrukte und strenge Ressourcenbeschränkungen erfordern. Um diese Herausforderungen zu bewältigen, stellen wir InCoder-32B (Industrial-Coder-32B) vor, das erste 32-Milliarden-Parameter-Code-Basismodell, das Code-Intelligenz über Chipdesign, GPU-Kernel-Optimierung, eingebettete Systeme, Compiler-Optimierung und 3D-Modellierung hinweg vereint. Durch die Verwendung einer effizienten Architektur trainieren wir InCoder-32B von Grund auf mit allgemeinem Code-Pre-Training, kuratiertem industriellem Code-Annealing, Mid-Training, das den Kontext schrittweise von 8K auf 128K Token mit synthetischen industriellen Schließungsdaten erweitert, und Post-Training mit ausführungsbasierter Verifikation. Wir führen eine umfangreiche Evaluation auf 14 Mainstream-Allgemein-Code-Benchmarks und 9 industriellen Benchmarks aus 4 spezialisierten Domänen durch. Die Ergebnisse zeigen, dass InCoder-32B eine äußerst wettbewerbsfähige Leistung bei allgemeinen Aufgaben erzielt und gleichzeitig starke Open-Source-Baselines über industrielle Domänen hinweg etabliert.

English

Recent code large language models have achieved remarkable progress on general programming tasks. Nevertheless, their performance degrades significantly in industrial scenarios that require reasoning about hardware semantics, specialized language constructs, and strict resource constraints. To address these challenges, we introduce InCoder-32B (Industrial-Coder-32B), the first 32B-parameter code foundation model unifying code intelligence across chip design, GPU kernel optimization, embedded systems, compiler optimization, and 3D modeling. By adopting an efficient architecture, we train InCoder-32B from scratch with general code pre-training, curated industrial code annealing, mid-training that progressively extends context from 8K to 128K tokens with synthetic industrial reasoning data, and post-training with execution-grounded verification. We conduct extensive evaluation on 14 mainstream general code benchmarks and 9 industrial benchmarks spanning 4 specialized domains. Results show InCoder-32B achieves highly competitive performance on general tasks while establishing strong open-source baselines across industrial domains.

InCoder-32B: Ein Code-Foundation-Modell für industrielle Anwendungsszenarien

InCoder-32B: Code Foundation Model for Industrial Scenarios

Zusammenfassung

Support