CUDA-L1: Verbetering van CUDA-optimalisatie via contrastieve reinforcement learning

Samenvatting

De exponentiële groei in de vraag naar GPU-rekenkracht, aangedreven door de snelle vooruitgang in Large Language Models, heeft een dringende behoefte gecreëerd aan geautomatiseerde CUDA-optimalisatiestrategieën. Hoewel recente ontwikkelingen in LLM's veelbelovend zijn voor codegeneratie, behalen huidige state-of-the-art modellen (bijv. R1, o1) lage slagingspercentages bij het verbeteren van CUDA-snelheid. In dit artikel introduceren we CUDA-L1, een geautomatiseerd reinforcement learning-framework voor CUDA-optimalisatie. CUDA-L1 behaalt prestatieverbeteringen op de CUDA-optimalisatietaak: getraind op NVIDIA A100, levert het een gemiddelde snelheidswinst van x17,7 op over alle 250 CUDA-kernels van KernelBench, met pieksnelheidswinsten tot x449. Bovendien toont het model ook uitstekende overdraagbaarheid over GPU-architecturen, met gemiddelde snelheidswinsten van x17,8 op H100, x19,0 op RTX 3090, x16,5 op L40, x14,7 op H800 en x13,9 op H20, ondanks dat het specifiek is geoptimaliseerd voor A100. Naast deze benchmarkresultaten demonstreert CUDA-L1 verschillende opmerkelijke eigenschappen: 1) Ontdekt een verscheidenheid aan CUDA-optimalisatietechnieken en leert deze strategisch te combineren voor optimale prestaties; 2) Legt fundamentele principes van CUDA-optimalisatie bloot; 3) Identificeert niet-voor de hand liggende prestatieknelpunten en verwerpt schijnbaar gunstige optimalisaties die de prestaties schaden. De mogelijkheden van CUDA-L1 tonen aan dat reinforcement learning een aanvankelijk slecht presterend LLM kan transformeren in een effectieve CUDA-optimalisator, uitsluitend gebaseerd op snelheidswinstsignalen, zonder menselijke expertise of domeinkennis. Belangrijker nog, het getrainde RL-model breidt de verworven redeneervaardigheden uit naar nieuwe kernels. Dit paradigma opent mogelijkheden voor geautomatiseerde optimalisatie van CUDA-operaties en belooft de GPU-efficiëntie aanzienlijk te bevorderen en de toenemende druk op GPU-rekenbronnen te verlichten.

English

The exponential growth in demand for GPU computing resources, driven by the rapid advancement of Large Language Models, has created an urgent need for automated CUDA optimization strategies. While recent advances in LLMs show promise for code generation, current SOTA models (e.g. R1, o1) achieve low success rates in improving CUDA speed. In this paper, we introduce CUDA-L1, an automated reinforcement learning framework for CUDA optimization. CUDA-L1 achieves performance improvements on the CUDA optimization task: trained on NVIDIA A100, it delivers an average speedup of x17.7 across all 250 CUDA kernels of KernelBench, with peak speedups reaching x449. Furthermore, the model also demonstrates excellent portability across GPU architectures, achieving average speedups of x17.8 on H100, x19.0 on RTX 3090, x16.5 on L40, x14.7 on H800, and x13.9 on H20 despite being optimized specifically for A100. Beyond these benchmark results, CUDA-L1 demonstrates several remarkable properties: 1) Discovers a variety of CUDA optimization techniques and learns to combine them strategically to achieve optimal performance; 2) Uncovers fundamental principles of CUDA optimization; 3) Identifies non-obvious performance bottlenecks and rejects seemingly beneficial optimizations that harm performance. The capabilities of CUDA-L1 demonstrate that reinforcement learning can transform an initially poor-performing LLM into an effective CUDA optimizer through speedup-based reward signals alone, without human expertise or domain knowledge. More importantly, the trained RL model extend the acquired reasoning abilities to new kernels. This paradigm opens possibilities for automated optimization of CUDA operations, and holds promise to substantially promote GPU efficiency and alleviate the rising pressure on GPU computing resources.

CUDA-L1: Verbetering van CUDA-optimalisatie via contrastieve reinforcement learning

CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning

Samenvatting

Support