ChatPaper.aiChatPaper

CUDA Agent: Grootschalige Agent-gebaseerde RL voor het Genereren van Hoogpresterende CUDA-kernels

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

February 27, 2026
Auteurs: Weinan Dai, Hanlin Wu, Qiying Yu, Huan-ang Gao, Jiahao Li, Chengquan Jiang, Weiqiang Lou, Yufan Song, Hongli Yu, Jiaze Chen, Wei-Ying Ma, Ya-Qin Zhang, Jingjing Liu, Mingxuan Wang, Xin Liu, Hao Zhou
cs.AI

Samenvatting

GPU-kerneloptimalisatie is fundamenteel voor modern deep learning, maar blijft een zeer gespecialiseerde taak die diepgaande hardware-expertise vereist. Hoewel grote taalmodellen (LLM's) sterke prestaties leveren in algemene programmering, kunnen ze niet concurreren met op compilers gebaseerde systemen zoals torch.compile voor CUDA-kernelgeneratie. Bestaande benaderingen voor CUDA-codegeneratie vertrouwen ofwel op trainingsvrije verfijning of fine-tunen modellen binnen vaste, multi-turn uitvoerings-feedbacklussen, maar beide paradigma's verbeteren fundamenteel niet het intrinsieke CUDA-optimalisatievermogen van het model, wat resulteert in beperkte prestatieverbeteringen. Wij presenteren CUDA Agent, een grootschalig reinforcement learning-systeem met agenten dat CUDA-kernelexpertise ontwikkelt via drie componenten: een schaalbare pijplijn voor datasynthese, een met vaardigheden versterkte CUDA-ontwikkelomgeving met geautomatiseerde verificatie en profiling om betrouwbare beloningssignalen te bieden, en reinforcement learning-algoritmische technieken die stabiele training mogelijk maken. CUDA Agent behaalt state-of-the-art resultaten op KernelBench, met een respectievelijk 100%, 100% en 92% hogere snelheid dan torch.compile op de KernelBench Level-1, Level-2 en Level-3 splits, en presteert ongeveer 40% beter dan de sterkste propriëtaire modellen zoals Claude Opus 4.5 en Gemini 3 Pro in de moeilijkste Level-3 setting.
English
GPU kernel optimization is fundamental to modern deep learning but remains a highly specialized task requiring deep hardware expertise. Despite strong performance in general programming, large language models (LLMs) remain uncompetitive with compiler-based systems such as torch.compile for CUDA kernel generation. Existing CUDA code generation approaches either rely on training-free refinement or fine-tune models within fixed multi-turn execution-feedback loops, but both paradigms fail to fundamentally improve the model's intrinsic CUDA optimization ability, resulting in limited performance gains. We present CUDA Agent, a large-scale agentic reinforcement learning system that develops CUDA kernel expertise through three components: a scalable data synthesis pipeline, a skill-augmented CUDA development environment with automated verification and profiling to provide reliable reward signals, and reinforcement learning algorithmic techniques enabling stable training. CUDA Agent achieves state-of-the-art results on KernelBench, delivering 100\%, 100\%, and 92\% faster rate over torch.compile on KernelBench Level-1, Level-2, and Level-3 splits, outperforming the strongest proprietary models such as Claude Opus 4.5 and Gemini 3 Pro by about 40\% on the hardest Level-3 setting.
PDF763March 7, 2026