InCoder-32B: Modello Fondamentale per il Codice in Scenari Industriali
InCoder-32B: Code Foundation Model for Industrial Scenarios
March 17, 2026
Autori: Jian Yang, Wei Zhang, Jiajun Wu, Junhang Cheng, Shawn Guo, Haowen Wang, Weicheng Gu, Yaxin Du, Joseph Li, Fanglin Xu, Yizhi Li, Lin Jing, Yuanbo Wang, Yuhan Gao, Ruihao Gong, Chuan Hao, Ran Tao, Aishan Liu, Tuney Zheng, Ganqu Cui, Zhoujun Li, Mingjie Tang, Chenghua Lin, Wayne Xin Zhao, Xianglong Liu, Ming Zhou, Bryan Dai, Weifeng Lv
cs.AI
Abstract
I recenti grandi modelli linguistici per il codice hanno ottenuto progressi notevoli nelle attività di programmazione generale. Tuttavia, le loro prestazioni si degradano significativamente negli scenari industriali che richiedono ragionamenti sulla semantica dell'hardware, costrutti linguistici specializzati e vincoli rigorosi delle risorse. Per affrontare queste sfide, introduciamo InCoder-32B (Industrial-Coder-32B), il primo modello base per il codice da 32 miliardi di parametri che unisce l'intelligenza del codice attraverso la progettazione di chip, l'ottimizzazione dei kernel GPU, i sistemi embedded, l'ottimizzazione dei compilatori e la modellazione 3D. Adottando un'architettura efficiente, addestriamo InCoder-32B da zero con pre-addestramento su codice generale, ricottura su codice industriale curato, mid-training che estende progressivamente il contesto da 8K a 128K token con dati sintetici di ragionamento industriale, e post-addestramento con verifica basata sull'esecuzione. Eseguiamo una valutazione estesa su 14 benchmark generali di codice mainstream e 9 benchmark industriali che coprono 4 domini specializzati. I risultati mostrano che InCoder-32B raggiunge prestazioni altamente competitive su compiti generali, stabilendo al contempo solidi benchmark open-source in tutti i domini industriali.
English
Recent code large language models have achieved remarkable progress on general programming tasks. Nevertheless, their performance degrades significantly in industrial scenarios that require reasoning about hardware semantics, specialized language constructs, and strict resource constraints. To address these challenges, we introduce InCoder-32B (Industrial-Coder-32B), the first 32B-parameter code foundation model unifying code intelligence across chip design, GPU kernel optimization, embedded systems, compiler optimization, and 3D modeling. By adopting an efficient architecture, we train InCoder-32B from scratch with general code pre-training, curated industrial code annealing, mid-training that progressively extends context from 8K to 128K tokens with synthetic industrial reasoning data, and post-training with execution-grounded verification. We conduct extensive evaluation on 14 mainstream general code benchmarks and 9 industrial benchmarks spanning 4 specialized domains. Results show InCoder-32B achieves highly competitive performance on general tasks while establishing strong open-source baselines across industrial domains.