CUDAエージェント:高性能CUDAカーネル生成のための大規模エージェント強化学習
CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation
February 27, 2026
著者: Weinan Dai, Hanlin Wu, Qiying Yu, Huan-ang Gao, Jiahao Li, Chengquan Jiang, Weiqiang Lou, Yufan Song, Hongli Yu, Jiaze Chen, Wei-Ying Ma, Ya-Qin Zhang, Jingjing Liu, Mingxuan Wang, Xin Liu, Hao Zhou
cs.AI
要旨
GPUカーネル最適化は現代の深層学習において基本技術であるが、高度なハードウェア専門知識を要する特化された作業であり続けている。大規模言語モデル(LLM)は一般的なプログラミングでは高い性能を発揮するものの、CUDAカーネル生成においてtorch.compileなどのコンパイラベースのシステムには依然として及ばない。既存のCUDAコード生成手法は、訓練不要の改良に依存するか、固定化されたマルチターン実行フィードバックループ内でモデルをファインチューニングするが、いずれのパラダイムもモデルの本質的なCUDA最適化能力を根本的に改善できず、性能向上が限定的となっている。本論文ではCUDA Agentを提案する。これは、スケーラブルなデータ合成パイプライン、信頼性のある報酬信号を提供する自動検証とプロファイリング機能を備えた技能拡張CUDA開発環境、安定した訓練を可能にする強化学習アルゴリズム技術の3要素を通じてCUDAカーネル専門性を獲得する大規模エージェント強化学習システムである。CUDA AgentはKernelBenchにおいて最先端の結果を達成し、Level-1、Level-2、Level-3分割においてtorch.compileよりもそれぞれ100%、100%、92%高速な処理速度を実現した。最も困難なLevel-3設定では、Claude Opus 4.5やGemini 3 Proなどの最強のプロプライエタリモデルを約40%上回る性能を示した。
English
GPU kernel optimization is fundamental to modern deep learning but remains a highly specialized task requiring deep hardware expertise. Despite strong performance in general programming, large language models (LLMs) remain uncompetitive with compiler-based systems such as torch.compile for CUDA kernel generation. Existing CUDA code generation approaches either rely on training-free refinement or fine-tune models within fixed multi-turn execution-feedback loops, but both paradigms fail to fundamentally improve the model's intrinsic CUDA optimization ability, resulting in limited performance gains. We present CUDA Agent, a large-scale agentic reinforcement learning system that develops CUDA kernel expertise through three components: a scalable data synthesis pipeline, a skill-augmented CUDA development environment with automated verification and profiling to provide reliable reward signals, and reinforcement learning algorithmic techniques enabling stable training. CUDA Agent achieves state-of-the-art results on KernelBench, delivering 100\%, 100\%, and 92\% faster rate over torch.compile on KernelBench Level-1, Level-2, and Level-3 splits, outperforming the strongest proprietary models such as Claude Opus 4.5 and Gemini 3 Pro by about 40\% on the hardest Level-3 setting.