ChatPaper.aiChatPaper

InCoder-32B: Modelo de Base de Código para Cenários Industriais

InCoder-32B: Code Foundation Model for Industrial Scenarios

March 17, 2026
Autores: Jian Yang, Wei Zhang, Jiajun Wu, Junhang Cheng, Shawn Guo, Haowen Wang, Weicheng Gu, Yaxin Du, Joseph Li, Fanglin Xu, Yizhi Li, Lin Jing, Yuanbo Wang, Yuhan Gao, Ruihao Gong, Chuan Hao, Ran Tao, Aishan Liu, Tuney Zheng, Ganqu Cui, Zhoujun Li, Mingjie Tang, Chenghua Lin, Wayne Xin Zhao, Xianglong Liu, Ming Zhou, Bryan Dai, Weifeng Lv
cs.AI

Resumo

Os modelos de linguagem de grande porte para código recentes alcançaram progressos notáveis em tarefas gerais de programação. No entanto, seu desempenho degrada-se significativamente em cenários industriais que exigem raciocínio sobre semântica de hardware, construções de linguagem especializadas e restrições rigorosas de recursos. Para enfrentar esses desafios, apresentamos o InCoder-32B (Industrial-Coder-32B), o primeiro modelo de base para código com 32 bilhões de parâmetros que unifica a inteligência de código através do design de chips, otimização de kernels GPU, sistemas embarcados, otimização de compiladores e modelagem 3D. Ao adotar uma arquitetura eficiente, treinamos o InCoder-32B a partir do zero com pré-treinamento geral em código, recozimento com código industrial selecionado, treinamento intermediário que estende progressivamente o contexto de 8K para 128K tokens com dados sintéticos de raciocínio industrial, e pós-treinamento com verificação fundamentada na execução. Realizamos uma avaliação extensiva em 14 benchmarks gerais de código principais e 9 benchmarks industriais abrangendo 4 domínios especializados. Os resultados mostram que o InCoder-32B alcança um desempenho altamente competitivo em tarefas gerais, estabelecendo ao mesmo tempo fortes linhas de base de código aberto em diversos domínios industriais.
English
Recent code large language models have achieved remarkable progress on general programming tasks. Nevertheless, their performance degrades significantly in industrial scenarios that require reasoning about hardware semantics, specialized language constructs, and strict resource constraints. To address these challenges, we introduce InCoder-32B (Industrial-Coder-32B), the first 32B-parameter code foundation model unifying code intelligence across chip design, GPU kernel optimization, embedded systems, compiler optimization, and 3D modeling. By adopting an efficient architecture, we train InCoder-32B from scratch with general code pre-training, curated industrial code annealing, mid-training that progressively extends context from 8K to 128K tokens with synthetic industrial reasoning data, and post-training with execution-grounded verification. We conduct extensive evaluation on 14 mainstream general code benchmarks and 9 industrial benchmarks spanning 4 specialized domains. Results show InCoder-32B achieves highly competitive performance on general tasks while establishing strong open-source baselines across industrial domains.
PDF2224March 19, 2026