ChatPaper.aiChatPaper

CUDA 에이전트: 고성능 CUDA 커널 생성을 위한 대규모 에이전트 강화학습

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

February 27, 2026
저자: Weinan Dai, Hanlin Wu, Qiying Yu, Huan-ang Gao, Jiahao Li, Chengquan Jiang, Weiqiang Lou, Yufan Song, Hongli Yu, Jiaze Chen, Wei-Ying Ma, Ya-Qin Zhang, Jingjing Liu, Mingxuan Wang, Xin Liu, Hao Zhou
cs.AI

초록

GPU 커널 최적화는 현대 딥러닝의 기반이지만 깊은 하드웨어 전문지식을 요구하는 고도로 전문화된 작업으로 남아있습니다. 범용 프로그래밍에서 강력한 성능을 보임에도 불구하고, 대규모 언어 모델(LLM)들은 CUDA 커널 생성에 있어 torch.compile과 같은 컴파일러 기반 시스템을 따라잡지 못하고 있습니다. 기존 CUDA 코드 생성 접근법은 학습 없는 정제 방법에 의존하거나 고정된 다중 회차 실행-피드백 루프 내에서 모델을 미세 조정하지만, 두 패러다임 모두 모델의 본질적인 CUDA 최적화 능력을 근본적으로 향상시키지 못해 제한된 성능 향상만을 가져옵니다. 본 논문에서는 세 가지 구성 요소를 통해 CUDA 커널 전문성을 개발하는 대규모 에이전트 강화 학습 시스템인 CUDA Agent를 제시합니다: 확장 가능한 데이터 합성 파이프라인, 신뢰할 수 있는 보상 신호를 제공하기 위해 자동화된 검증 및 프로파일링 기능을 갖춘 기술 증강 CUDA 개발 환경, 그리고 안정적인 학습을 가능하게 하는 강화 학습 알고리즘 기술입니다. CUDA Agent는 KernelBench에서 최첨단 성능을 달성하여 KernelBench Level-1, Level-2, Level-3 분할에서 torch.compile 대비 각각 100%, 100%, 92% 더 빠른 속도를 제공하며, 가장 어려운 Level-3 설정에서 Claude Opus 4.5 및 Gemini 3 Pro와 같은 가장 강력한 독점 모델을 약 40% 앞섭니다.
English
GPU kernel optimization is fundamental to modern deep learning but remains a highly specialized task requiring deep hardware expertise. Despite strong performance in general programming, large language models (LLMs) remain uncompetitive with compiler-based systems such as torch.compile for CUDA kernel generation. Existing CUDA code generation approaches either rely on training-free refinement or fine-tune models within fixed multi-turn execution-feedback loops, but both paradigms fail to fundamentally improve the model's intrinsic CUDA optimization ability, resulting in limited performance gains. We present CUDA Agent, a large-scale agentic reinforcement learning system that develops CUDA kernel expertise through three components: a scalable data synthesis pipeline, a skill-augmented CUDA development environment with automated verification and profiling to provide reliable reward signals, and reinforcement learning algorithmic techniques enabling stable training. CUDA Agent achieves state-of-the-art results on KernelBench, delivering 100\%, 100\%, and 92\% faster rate over torch.compile on KernelBench Level-1, Level-2, and Level-3 splits, outperforming the strongest proprietary models such as Claude Opus 4.5 and Gemini 3 Pro by about 40\% on the hardest Level-3 setting.
PDF763March 7, 2026