CUDA-Agent: Agentisches Reinforcement Learning im großen Maßstab zur Erzeugung hochleistungsfähiger CUDA-Kernel
CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation
February 27, 2026
Autoren: Weinan Dai, Hanlin Wu, Qiying Yu, Huan-ang Gao, Jiahao Li, Chengquan Jiang, Weiqiang Lou, Yufan Song, Hongli Yu, Jiaze Chen, Wei-Ying Ma, Ya-Qin Zhang, Jingjing Liu, Mingxuan Wang, Xin Liu, Hao Zhou
cs.AI
Zusammenfassung
Die Optimierung von GPU-Kerneln ist grundlegend für modernes Deep Learning, bleibt jedoch eine hochspezialisierte Aufgabe, die tiefgehende Hardware-Expertise erfordert. Trotz starker Leistungen im allgemeinen Programmieren können große Sprachmodelle (LLMs) bei der CUDA-Kernel-Generierung nicht mit compilerbasierten Systemen wie torch.compile konkurrieren. Bestehende Ansätze zur CUDA-Code-Generierung setzen entweder auf trainierungsfreie Verfeinerung oder finetunen Modelle innerhalb festgelegter Mehr-Runden-Ausführungs-Feedback-Schleifen. Beide Paradigmen verbessern jedoch nicht grundlegend die intrinsische CUDA-Optimierungsfähigkeit des Modells, was zu begrenzten Leistungssteigerungen führt. Wir stellen CUDA Agent vor, ein groß angelegtes agentenbasiertes Verstärkungslernsystem, das CUDA-Kernel-Expertise durch drei Komponenten entwickelt: eine skalierbare Daten-Synthese-Pipeline, eine um Fähigkeiten erweiterte CUDA-Entwicklungsumgebung mit automatischer Verifikation und Profiling zur Bereitstellung zuverlässiger Belohnungssignale sowie Algorithmen des Verstärkungslernens, die stabiles Training ermöglichen. CUDA Agent erzielt state-of-the-art Ergebnisse auf KernelBench und erreicht auf den KernelBench Level-1-, Level-2- und Level-3-Teilbereichen eine um 100 %, 100 % bzw. 92 % höhere Geschwindigkeit als torch.compile. Im anspruchsvollsten Level-3-Setting übertrifft es die stärksten proprietären Modelle wie Claude Opus 4.5 und Gemini 3 Pro um etwa 40 %.
English
GPU kernel optimization is fundamental to modern deep learning but remains a highly specialized task requiring deep hardware expertise. Despite strong performance in general programming, large language models (LLMs) remain uncompetitive with compiler-based systems such as torch.compile for CUDA kernel generation. Existing CUDA code generation approaches either rely on training-free refinement or fine-tune models within fixed multi-turn execution-feedback loops, but both paradigms fail to fundamentally improve the model's intrinsic CUDA optimization ability, resulting in limited performance gains. We present CUDA Agent, a large-scale agentic reinforcement learning system that develops CUDA kernel expertise through three components: a scalable data synthesis pipeline, a skill-augmented CUDA development environment with automated verification and profiling to provide reliable reward signals, and reinforcement learning algorithmic techniques enabling stable training. CUDA Agent achieves state-of-the-art results on KernelBench, delivering 100\%, 100\%, and 92\% faster rate over torch.compile on KernelBench Level-1, Level-2, and Level-3 splits, outperforming the strongest proprietary models such as Claude Opus 4.5 and Gemini 3 Pro by about 40\% on the hardest Level-3 setting.