InCoder-32B: Modelo Fundacional de Código para Escenarios Industriales

Resumen

Los modelos lingüísticos grandes de código recientes han logrado avances notables en tareas de programación general. Sin embargo, su rendimiento se degrada significativamente en escenarios industriales que requieren razonamiento sobre semántica de hardware, construcciones lingüísticas especializadas y restricciones estrictas de recursos. Para abordar estos desafíos, presentamos InCoder-32B (Codificador Industrial-32B), el primer modelo base de código de 32.000 millones de parámetros que unifica la inteligencia de código en diseño de chips, optimización de kernels GPU, sistemas embebidos, optimización de compiladores y modelado 3D. Mediante la adopción de una arquitectura eficiente, entrenamos InCoder-32B desde cero con pre-entrenamiento general de código, temple con código industrial seleccionado, entrenamiento intermedio que extiende progresivamente el contexto de 8K a 128K tokens con datos sintéticos de razonamiento industrial, y post-entrenamiento con verificación basada en ejecución. Realizamos una evaluación exhaustiva en 14 benchmarks generales de código principales y 9 benchmarks industriales que abarcan 4 dominios especializados. Los resultados muestran que InCoder-32B logra un rendimiento altamente competitivo en tareas generales, estableciendo al mismo tiempo sólidas líneas base de código abierto en dominios industriales.

English

Recent code large language models have achieved remarkable progress on general programming tasks. Nevertheless, their performance degrades significantly in industrial scenarios that require reasoning about hardware semantics, specialized language constructs, and strict resource constraints. To address these challenges, we introduce InCoder-32B (Industrial-Coder-32B), the first 32B-parameter code foundation model unifying code intelligence across chip design, GPU kernel optimization, embedded systems, compiler optimization, and 3D modeling. By adopting an efficient architecture, we train InCoder-32B from scratch with general code pre-training, curated industrial code annealing, mid-training that progressively extends context from 8K to 128K tokens with synthetic industrial reasoning data, and post-training with execution-grounded verification. We conduct extensive evaluation on 14 mainstream general code benchmarks and 9 industrial benchmarks spanning 4 specialized domains. Results show InCoder-32B achieves highly competitive performance on general tasks while establishing strong open-source baselines across industrial domains.

InCoder-32B: Modelo Fundacional de Código para Escenarios Industriales

InCoder-32B: Code Foundation Model for Industrial Scenarios

Resumen

Support