ChatPaper.aiChatPaper

CUDA Agent: Масштабируемое агентное обучение с подкреплением для генерации высокопроизводительных ядер CUDA

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

February 27, 2026
Авторы: Weinan Dai, Hanlin Wu, Qiying Yu, Huan-ang Gao, Jiahao Li, Chengquan Jiang, Weiqiang Lou, Yufan Song, Hongli Yu, Jiaze Chen, Wei-Ying Ma, Ya-Qin Zhang, Jingjing Liu, Mingxuan Wang, Xin Liu, Hao Zhou
cs.AI

Аннотация

Оптимизация GPU-ядр является фундаментальной задачей современного глубокого обучения, но остается высокоспециализированной деятельностью, требующей глубоких знаний аппаратного обеспечения. Несмотря на высокую производительность в области программирования общего назначения, большие языковые модели (LLM) остаются неконкурентоспособными по сравнению с компиляторными системами, такими как torch.compile, при генерации CUDA-ядр. Существующие подходы к генерации CUDA-кода либо полагаются на доработку без обучения, либо выполняют тонкую настройку моделей в рамках фиксированных многопроходных циклов "выполнение-обратная связь", но обе парадигмы не позволяют фундаментально улучшить внутренние способности модели к оптимизации CUDA, что приводит к ограниченному приросту производительности. Мы представляем CUDA Agent — крупномасштабную агентскую систему обучения с подкреплением, которая развивает экспертизу в области CUDA-ядр через три компонента: масштабируемый конвейер синтеза данных, среду разработки CUDA с расширенными возможностями и автоматизированной верификацией и профилированием для обеспечения надежных сигналов вознаграждения, а также алгоритмические методы обучения с подкреплением, обеспечивающие стабильность обучения. CUDA Agent демонстрирует наилучшие результаты на KernelBench, обеспечивая в 100%, 100% и 92% случаев более высокую скорость по сравнению с torch.compile на уровнях сложности Level-1, Level-2 и Level-3 соответственно, и превосходит сильнейшие проприетарные модели, такие как Claude Opus 4.5 и Gemini 3 Pro, примерно на 40% в наиболее сложных условиях Level-3.
English
GPU kernel optimization is fundamental to modern deep learning but remains a highly specialized task requiring deep hardware expertise. Despite strong performance in general programming, large language models (LLMs) remain uncompetitive with compiler-based systems such as torch.compile for CUDA kernel generation. Existing CUDA code generation approaches either rely on training-free refinement or fine-tune models within fixed multi-turn execution-feedback loops, but both paradigms fail to fundamentally improve the model's intrinsic CUDA optimization ability, resulting in limited performance gains. We present CUDA Agent, a large-scale agentic reinforcement learning system that develops CUDA kernel expertise through three components: a scalable data synthesis pipeline, a skill-augmented CUDA development environment with automated verification and profiling to provide reliable reward signals, and reinforcement learning algorithmic techniques enabling stable training. CUDA Agent achieves state-of-the-art results on KernelBench, delivering 100\%, 100\%, and 92\% faster rate over torch.compile on KernelBench Level-1, Level-2, and Level-3 splits, outperforming the strongest proprietary models such as Claude Opus 4.5 and Gemini 3 Pro by about 40\% on the hardest Level-3 setting.
PDF763March 7, 2026