InCoder-32B: Фундаментальная модель для работы с кодом в промышленных сценариях

Аннотация

Современные крупные языковые модели для работы с кодом демонстрируют выдающийся прогресс в решении общих программных задач. Однако их производительность значительно снижается в промышленных сценариях, требующих анализа семантики оборудования, специализированных языковых конструкций и строгих ограничений по ресурсам. Для решения этих проблем мы представляем InCoder-32B (Industrial-Coder-32B) — первую фоновую модель для работы с кодом объемом 32 миллиарда параметров, объединяющую интеллектуальную обработку кода в областях проектирования микросхем, оптимизации GPU-ядре, встроенных систем, оптимизации компиляторов и 3D-моделирования. Используя эффективную архитектуру, мы обучаем InCoder-32B с нуля с помощью общего предварительного обучения кодом, контролируемого индустриального "отжига" кода, промежуточного обучения с прогрессивным расширением контекста от 8K до 128K токенов на синтетических данных промышленного логического вывода и последующего обучения с проверкой на основе исполнения. Мы проводим всестороннюю оценку на 14 основных общих бенчмарках для кода и 9 промышленных бенчмарках, охватывающих 4 специализированные области. Результаты показывают, что InCoder-32B демонстрирует высококонкурентную производительность на общих задачах, одновременно устанавливая надежные открытые базовые уровни для промышленных доменов.

English

Recent code large language models have achieved remarkable progress on general programming tasks. Nevertheless, their performance degrades significantly in industrial scenarios that require reasoning about hardware semantics, specialized language constructs, and strict resource constraints. To address these challenges, we introduce InCoder-32B (Industrial-Coder-32B), the first 32B-parameter code foundation model unifying code intelligence across chip design, GPU kernel optimization, embedded systems, compiler optimization, and 3D modeling. By adopting an efficient architecture, we train InCoder-32B from scratch with general code pre-training, curated industrial code annealing, mid-training that progressively extends context from 8K to 128K tokens with synthetic industrial reasoning data, and post-training with execution-grounded verification. We conduct extensive evaluation on 14 mainstream general code benchmarks and 9 industrial benchmarks spanning 4 specialized domains. Results show InCoder-32B achieves highly competitive performance on general tasks while establishing strong open-source baselines across industrial domains.

InCoder-32B: Фундаментальная модель для работы с кодом в промышленных сценариях

InCoder-32B: Code Foundation Model for Industrial Scenarios

Аннотация

Support