ChatPaper.aiChatPaper

Agente CUDA: Aprendizaje por Refuerzo Agéntico a Gran Escala para la Generación de Kernels CUDA de Alto Rendimiento

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

February 27, 2026
Autores: Weinan Dai, Hanlin Wu, Qiying Yu, Huan-ang Gao, Jiahao Li, Chengquan Jiang, Weiqiang Lou, Yufan Song, Hongli Yu, Jiaze Chen, Wei-Ying Ma, Ya-Qin Zhang, Jingjing Liu, Mingxuan Wang, Xin Liu, Hao Zhou
cs.AI

Resumen

La optimización de kernels de GPU es fundamental para el aprendizaje profundo moderno, pero sigue siendo una tarea altamente especializada que requiere un profundo conocimiento del hardware. A pesar de su sólido rendimiento en programación general, los grandes modelos de lenguaje (LLM) siguen sin ser competitivos frente a sistemas basados en compiladores como torch.compile para la generación de kernels CUDA. Los enfoques existentes de generación de código CUDA se basan en refinamiento sin entrenamiento o en ajustar modelos dentro de bucles fijos de ejecución-retroalimentación multi-turno, pero ambos paradigmas no logran mejorar fundamentalmente la capacidad intrínseca de optimización CUDA del modelo, lo que resulta en ganancias de rendimiento limitadas. Presentamos CUDA Agent, un sistema de aprendizaje por refuerzo agéntico a gran escala que desarrolla experiencia en kernels CUDA mediante tres componentes: una pipeline escalable de síntesis de datos, un entorno de desarrollo CUDA aumentado con habilidades que incluye verificación automatizada y generación de perfiles para proporcionar señales de recompensa confiables, y técnicas algorítmicas de aprendizaje por refuerzo que permiten un entrenamiento estable. CUDA Agent logra resultados de vanguardia en KernelBench, ofreciendo una velocidad 100%, 100% y 92% mayor que torch.compile en las divisiones Nivel-1, Nivel-2 y Nivel-3 de KernelBench, superando a los modelos propietarios más potentes como Claude Opus 4.5 y Gemini 3 Pro en aproximadamente un 40% en la configuración más difícil del Nivel-3.
English
GPU kernel optimization is fundamental to modern deep learning but remains a highly specialized task requiring deep hardware expertise. Despite strong performance in general programming, large language models (LLMs) remain uncompetitive with compiler-based systems such as torch.compile for CUDA kernel generation. Existing CUDA code generation approaches either rely on training-free refinement or fine-tune models within fixed multi-turn execution-feedback loops, but both paradigms fail to fundamentally improve the model's intrinsic CUDA optimization ability, resulting in limited performance gains. We present CUDA Agent, a large-scale agentic reinforcement learning system that develops CUDA kernel expertise through three components: a scalable data synthesis pipeline, a skill-augmented CUDA development environment with automated verification and profiling to provide reliable reward signals, and reinforcement learning algorithmic techniques enabling stable training. CUDA Agent achieves state-of-the-art results on KernelBench, delivering 100\%, 100\%, and 92\% faster rate over torch.compile on KernelBench Level-1, Level-2, and Level-3 splits, outperforming the strongest proprietary models such as Claude Opus 4.5 and Gemini 3 Pro by about 40\% on the hardest Level-3 setting.
PDF763March 7, 2026