ChatPaper.aiChatPaper

InCoder-32B-Thinking: 사고를 위한 산업용 코드 세계 모델

InCoder-32B-Thinking: Industrial Code World Model for Thinking

April 3, 2026
저자: Jian Yang, Wei Zhang, Jiajun Wu, Junhang Cheng, Tuney Zheng, Fanglin Xu, Weicheng Gu, Lin Jing, Yaxin Du, Joseph Li, Yizhi Li, Yan Xing, Chuan Hao, Ran Tao, Ruihao Gong, Aishan Liu, Zhoujun Li, Mingjie Tang, Chenghua Lin, Siheng Chen, Wayne Xin Zhao, Xianglong Liu, Ming Zhou, Bryan Dai, Weifeng Lv
cs.AI

초록

반도체 설계, GPU 최적화, 임베디드 시스템에 이르는 산업용 소프트웨어 개발 분야에서는 엔지니어들이 하드웨어 제약 조건과 타이밍 의미론을 어떻게 추론하는지를 보여주는 전문가 수준의 추론 흔적이 부족합니다. 본 연구에서는 산업적 코드 세계 모델(ICWM)과 오류 주도 사고 연쇄(ECoT) 합성 프레임워크의 데이터로 학습된 InCoder-32B-Thinking를 제안하여 이러한 추론 흔적을 생성합니다. 구체적으로, ECoT는 환경적 오류 피드백이 포함된 다중 턴 대화에서 사고 내용을 합성하여 추론 체인을 생성하며, 오류 수정 과정을 명시적으로 모델링합니다. ICWM은 Verilog 시뮬레이션, GPU 프로파일링 등 도메인 특화 실행 흔적으로 학습되어 코드가 하드웨어 동작에 미치는 인과적 역학을 학습하고, 실제 컴파일 전에 실행 결과를 예측함으로써 자체 검증을 가능하게 합니다. 합성된 모든 추론 흔적은 도메인 툴체인을 통해 검증되어, 산업 과제의 자연스러운 추론 깊이 분포와 일치하는 학습 데이터를 생성합니다. 14개의 일반 벤치마크(LiveCodeBench v5 기준 81.3%)와 9개의 산업 벤치마크(CAD-Coder 기준 84.0%, KernelBench 기준 38.0%)에 대한 평가 결과, InCoder-32B-Thinking는 모든 영역에서 최상위 오픈소스 성능을 달성함을 보여줍니다.
English
Industrial software development across chip design, GPU optimization, and embedded systems lacks expert reasoning traces showing how engineers reason about hardware constraints and timing semantics. In this work, we propose InCoder-32B-Thinking, trained on the data from the Error-driven Chain-of-Thought (ECoT) synthesis framework with an industrial code world model (ICWM) to generate reasoning traces. Specifically, ECoT generates reasoning chains by synthesizing the thinking content from multi-turn dialogue with environmental error feedback, explicitly modeling the error-correction process. ICWM is trained on domain-specific execution traces from Verilog simulation, GPU profiling, etc., learns the causal dynamics of how code affects hardware behavior, and enables self-verification by predicting execution outcomes before actual compilation. All synthesized reasoning traces are validated through domain toolchains, creating training data matching the natural reasoning depth distribution of industrial tasks. Evaluation on 14 general (81.3% on LiveCodeBench v5) and 9 industrial benchmarks (84.0% in CAD-Coder and 38.0% on KernelBench) shows InCoder-32B-Thinking achieves top-tier open-source results across all domains.GPU Optimization
PDF60April 7, 2026