CUDA Agent: Apprendimento per Rinforzo Agente su Larga Scala per la Generazione di Kernel CUDA ad Alte Prestazioni

Abstract

L'ottimizzazione dei kernel GPU è fondamentale per il deep learning moderno ma rimane un compito altamente specializzato che richiede una profonda competenza hardware. Nonostante le forti prestazioni nella programmazione generale, i grandi modelli linguistici (LLM) rimangono non competitivi rispetto a sistemi basati su compilatori come torch.compile per la generazione di kernel CUDA. Gli approcci esistenti per la generazione di codice CUDA si basano su raffinamenti senza training o su modelli addestrati in loop di esecuzione-feedback multi-turno fissi, ma entrambi i paradigmi non riescono a migliorare fondamentalmente l'intrinseca capacità di ottimizzazione CUDA del modello, risultando in guadagni prestazionali limitati. Presentiamo CUDA Agent, un sistema su larga scala di apprendimento per rinforzo agente che sviluppa competenza nei kernel CUDA attraverso tre componenti: una pipeline scalabile di sintesi dati, un ambiente di sviluppo CUDA arricchito con verifica e profilazione automatizzate per fornire segnali di reward affidabili, e tecniche algoritmiche di reinforcement learning che abilitano un addestramento stabile. CUDA Agent ottiene risultati all'avanguardia su KernelBench, raggiungendo rispettivamente il 100%, 100% e 92% di velocizzazione superiore a torch.compile sulle partizioni Level-1, Level-2 e Level-3 di KernelBench, superando i modelli proprietari più potenti come Claude Opus 4.5 e Gemini 3 Pro di circa il 40% sullo scenario più difficile di Level-3.

English

GPU kernel optimization is fundamental to modern deep learning but remains a highly specialized task requiring deep hardware expertise. Despite strong performance in general programming, large language models (LLMs) remain uncompetitive with compiler-based systems such as torch.compile for CUDA kernel generation. Existing CUDA code generation approaches either rely on training-free refinement or fine-tune models within fixed multi-turn execution-feedback loops, but both paradigms fail to fundamentally improve the model's intrinsic CUDA optimization ability, resulting in limited performance gains. We present CUDA Agent, a large-scale agentic reinforcement learning system that develops CUDA kernel expertise through three components: a scalable data synthesis pipeline, a skill-augmented CUDA development environment with automated verification and profiling to provide reliable reward signals, and reinforcement learning algorithmic techniques enabling stable training. CUDA Agent achieves state-of-the-art results on KernelBench, delivering 100\%, 100\%, and 92\% faster rate over torch.compile on KernelBench Level-1, Level-2, and Level-3 splits, outperforming the strongest proprietary models such as Claude Opus 4.5 and Gemini 3 Pro by about 40\% on the hardest Level-3 setting.

CUDA Agent: Apprendimento per Rinforzo Agente su Larga Scala per la Generazione di Kernel CUDA ad Alte Prestazioni

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

Abstract

Support