ChatPaper.aiChatPaper

Agent CUDA : Apprentissage par Renforcement Agentiel à Grande Échelle pour la Génération de Noyaux CUDA Hautes Performances

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

February 27, 2026
Auteurs: Weinan Dai, Hanlin Wu, Qiying Yu, Huan-ang Gao, Jiahao Li, Chengquan Jiang, Weiqiang Lou, Yufan Song, Hongli Yu, Jiaze Chen, Wei-Ying Ma, Ya-Qin Zhang, Jingjing Liu, Mingxuan Wang, Xin Liu, Hao Zhou
cs.AI

Résumé

L'optimisation des kernels GPU est fondamentale pour l'apprentissage profond moderne mais reste une tâche hautement spécialisée nécessitant une expertise matérielle approfondie. Malgré de solides performances en programmation générale, les grands modèles de langage (LLM) restent non compétitifs face aux systèmes basés sur des compilateurs comme torch.compile pour la génération de kernels CUDA. Les approches existantes de génération de code CUDA reposent soit sur un raffinement sans apprentissage, soit sur un affinage des modèles dans des boucles d'exécution-feedback multi-tours fixes, mais ces deux paradigmes échouent à améliorer fondamentalement la capacité intrinsèque d'optimisation CUDA du modèle, entraînant des gains de performance limités. Nous présentons CUDA Agent, un système d'apprentissage par renforcement agentique à grande échelle qui développe une expertise en kernels CUDA via trois composants : un pipeline synthèse de données scalable, un environnement de développement CUDA enrichi de compétences avec vérification et profilage automatisés pour fournir des signaux de récompense fiables, et des techniques algorithmiques d'apprentissage par renforcement permettant un entraînement stable. CUDA Agent obtient des résultats state-of-the-art sur KernelBench, offrant des taux respectivement 100%, 100% et 92% plus rapides que torch.compile sur les sous-ensembles Niveau-1, Niveau-2 et Niveau-3 de KernelBench, surpassant les modèles propriétaires les plus performants comme Claude Opus 4.5 et Gemini 3 Pro d'environ 40% sur le scénario le plus difficile (Niveau-3).
English
GPU kernel optimization is fundamental to modern deep learning but remains a highly specialized task requiring deep hardware expertise. Despite strong performance in general programming, large language models (LLMs) remain uncompetitive with compiler-based systems such as torch.compile for CUDA kernel generation. Existing CUDA code generation approaches either rely on training-free refinement or fine-tune models within fixed multi-turn execution-feedback loops, but both paradigms fail to fundamentally improve the model's intrinsic CUDA optimization ability, resulting in limited performance gains. We present CUDA Agent, a large-scale agentic reinforcement learning system that develops CUDA kernel expertise through three components: a scalable data synthesis pipeline, a skill-augmented CUDA development environment with automated verification and profiling to provide reliable reward signals, and reinforcement learning algorithmic techniques enabling stable training. CUDA Agent achieves state-of-the-art results on KernelBench, delivering 100\%, 100\%, and 92\% faster rate over torch.compile on KernelBench Level-1, Level-2, and Level-3 splits, outperforming the strongest proprietary models such as Claude Opus 4.5 and Gemini 3 Pro by about 40\% on the hardest Level-3 setting.
PDF763March 7, 2026