Agente CUDA: Aprendizado por Reforço Agêntico em Larga Escala para Geração de Kernels CUDA de Alto Desempenho
CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation
February 27, 2026
Autores: Weinan Dai, Hanlin Wu, Qiying Yu, Huan-ang Gao, Jiahao Li, Chengquan Jiang, Weiqiang Lou, Yufan Song, Hongli Yu, Jiaze Chen, Wei-Ying Ma, Ya-Qin Zhang, Jingjing Liu, Mingxuan Wang, Xin Liu, Hao Zhou
cs.AI
Resumo
A otimização de kernels GPU é fundamental para o aprendizado profundo moderno, mas permanece uma tarefa altamente especializada que requer profundo conhecimento de hardware. Apesar do forte desempenho em programação geral, os grandes modelos de linguagem (LLMs) permanecem não competitivos com sistemas baseados em compiladores, como o torch.compile, para geração de kernels CUDA. As abordagens existentes de geração de código CUDA ou dependem de refinamento sem treinamento ou ajustam modelos em loops fixos de execução-feedback multi-turn, mas ambos os paradigmas falham em melhorar fundamentalmente a capacidade intrínseca de otimização CUDA do modelo, resultando em ganhos de desempenho limitados. Apresentamos o CUDA Agent, um sistema de aprendizado por reforço agentivo em larga escala que desenvolve expertise em kernels CUDA através de três componentes: um pipeline escalável de síntese de dados, um ambiente de desenvolvimento CUDA com habilidades aumentadas e verificação e profiling automatizados para fornecer sinais de recompensa confiáveis, e técnicas algorítmicas de aprendizado por reforço que permitem treinamento estável. O CUDA Agent alcança resultados state-of-the-art no KernelBench, fornecendo taxas 100%, 100% e 92% mais rápidas que o torch.compile nas divisões Level-1, Level-2 e Level-3 do KernelBench, superando os modelos proprietários mais fortes, como Claude Opus 4.5 e Gemini 3 Pro, em cerca de 40% na configuração mais difícil Level-3.
English
GPU kernel optimization is fundamental to modern deep learning but remains a highly specialized task requiring deep hardware expertise. Despite strong performance in general programming, large language models (LLMs) remain uncompetitive with compiler-based systems such as torch.compile for CUDA kernel generation. Existing CUDA code generation approaches either rely on training-free refinement or fine-tune models within fixed multi-turn execution-feedback loops, but both paradigms fail to fundamentally improve the model's intrinsic CUDA optimization ability, resulting in limited performance gains. We present CUDA Agent, a large-scale agentic reinforcement learning system that develops CUDA kernel expertise through three components: a scalable data synthesis pipeline, a skill-augmented CUDA development environment with automated verification and profiling to provide reliable reward signals, and reinforcement learning algorithmic techniques enabling stable training. CUDA Agent achieves state-of-the-art results on KernelBench, delivering 100\%, 100\%, and 92\% faster rate over torch.compile on KernelBench Level-1, Level-2, and Level-3 splits, outperforming the strongest proprietary models such as Claude Opus 4.5 and Gemini 3 Pro by about 40\% on the hardest Level-3 setting.