CUDA-L1: Verbetering van CUDA-optimalisatie via contrastieve reinforcement learning
CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning
July 18, 2025
Auteurs: Xiaoya Li, Xiaofei Sun, Albert Wang, Jiwei Li, Chris Shum
cs.AI
Samenvatting
De exponentiële groei in de vraag naar GPU-rekenkracht, aangedreven door de snelle vooruitgang in Large Language Models, heeft een dringende behoefte gecreëerd aan geautomatiseerde CUDA-optimalisatiestrategieën. Hoewel recente ontwikkelingen in LLM's veelbelovend zijn voor codegeneratie, behalen huidige state-of-the-art modellen (bijv. R1, o1) lage slagingspercentages bij het verbeteren van CUDA-snelheid. In dit artikel introduceren we CUDA-L1, een geautomatiseerd reinforcement learning-framework voor CUDA-optimalisatie.
CUDA-L1 behaalt prestatieverbeteringen op de CUDA-optimalisatietaak: getraind op NVIDIA A100, levert het een gemiddelde snelheidswinst van x17,7 op over alle 250 CUDA-kernels van KernelBench, met pieksnelheidswinsten tot x449. Bovendien toont het model ook uitstekende overdraagbaarheid over GPU-architecturen, met gemiddelde snelheidswinsten van x17,8 op H100, x19,0 op RTX 3090, x16,5 op L40, x14,7 op H800 en x13,9 op H20, ondanks dat het specifiek is geoptimaliseerd voor A100. Naast deze benchmarkresultaten demonstreert CUDA-L1 verschillende opmerkelijke eigenschappen: 1) Ontdekt een verscheidenheid aan CUDA-optimalisatietechnieken en leert deze strategisch te combineren voor optimale prestaties; 2) Legt fundamentele principes van CUDA-optimalisatie bloot; 3) Identificeert niet-voor de hand liggende prestatieknelpunten en verwerpt schijnbaar gunstige optimalisaties die de prestaties schaden.
De mogelijkheden van CUDA-L1 tonen aan dat reinforcement learning een aanvankelijk slecht presterend LLM kan transformeren in een effectieve CUDA-optimalisator, uitsluitend gebaseerd op snelheidswinstsignalen, zonder menselijke expertise of domeinkennis. Belangrijker nog, het getrainde RL-model breidt de verworven redeneervaardigheden uit naar nieuwe kernels. Dit paradigma opent mogelijkheden voor geautomatiseerde optimalisatie van CUDA-operaties en belooft de GPU-efficiëntie aanzienlijk te bevorderen en de toenemende druk op GPU-rekenbronnen te verlichten.
English
The exponential growth in demand for GPU computing resources, driven by the
rapid advancement of Large Language Models, has created an urgent need for
automated CUDA optimization strategies. While recent advances in LLMs show
promise for code generation, current SOTA models (e.g. R1, o1) achieve low
success rates in improving CUDA speed. In this paper, we introduce CUDA-L1, an
automated reinforcement learning framework for CUDA optimization.
CUDA-L1 achieves performance improvements on the CUDA optimization task:
trained on NVIDIA A100, it delivers an average speedup of x17.7 across all 250
CUDA kernels of KernelBench, with peak speedups reaching x449. Furthermore, the
model also demonstrates excellent portability across GPU architectures,
achieving average speedups of x17.8 on H100, x19.0 on RTX 3090, x16.5 on L40,
x14.7 on H800, and x13.9 on H20 despite being optimized specifically for A100.
Beyond these benchmark results, CUDA-L1 demonstrates several remarkable
properties: 1) Discovers a variety of CUDA optimization techniques and learns
to combine them strategically to achieve optimal performance; 2) Uncovers
fundamental principles of CUDA optimization; 3) Identifies non-obvious
performance bottlenecks and rejects seemingly beneficial optimizations that
harm performance.
The capabilities of CUDA-L1 demonstrate that reinforcement learning can
transform an initially poor-performing LLM into an effective CUDA optimizer
through speedup-based reward signals alone, without human expertise or domain
knowledge. More importantly, the trained RL model extend the acquired reasoning
abilities to new kernels. This paradigm opens possibilities for automated
optimization of CUDA operations, and holds promise to substantially promote GPU
efficiency and alleviate the rising pressure on GPU computing resources.