CUDA-L1: Verbesserung der CUDA-Optimierung durch kontrastives Reinforcement Learning
CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning
July 18, 2025
papers.authors: Xiaoya Li, Xiaofei Sun, Albert Wang, Jiwei Li, Chris Shum
cs.AI
papers.abstract
Das exponentielle Wachstum der Nachfrage nach GPU-Computing-Ressourcen, getrieben durch die rasante Weiterentwicklung von Large Language Models, hat einen dringenden Bedarf an automatisierten CUDA-Optimierungsstrategien geschaffen. Obwohl jüngste Fortschritte bei LLMs vielversprechend für die Codegenerierung sind, erreichen aktuelle SOTA-Modelle (z. B. R1, o1) niedrige Erfolgsraten bei der Verbesserung der CUDA-Geschwindigkeit. In diesem Artikel stellen wir CUDA-L1 vor, ein automatisiertes Reinforcement-Learning-Framework für die CUDA-Optimierung.
CUDA-L1 erzielt Leistungsverbesserungen bei der CUDA-Optimierungsaufgabe: Auf der NVIDIA A100 trainiert, erreicht es eine durchschnittliche Beschleunigung von x17,7 über alle 250 CUDA-Kernel von KernelBench, mit Spitzenbeschleunigungen von bis zu x449. Darüber hinaus zeigt das Modell auch eine hervorragende Portabilität über GPU-Architekturen hinweg und erreicht durchschnittliche Beschleunigungen von x17,8 auf der H100, x19,0 auf der RTX 3090, x16,5 auf der L40, x14,7 auf der H800 und x13,9 auf der H20, obwohl es speziell für die A100 optimiert wurde.
Über diese Benchmark-Ergebnisse hinaus demonstriert CUDA-L1 mehrere bemerkenswerte Eigenschaften: 1) Es entdeckt eine Vielzahl von CUDA-Optimierungstechniken und lernt, sie strategisch zu kombinieren, um optimale Leistung zu erzielen; 2) Es deckt grundlegende Prinzipien der CUDA-Optimierung auf; 3) Es identifiziert nicht offensichtliche Leistungsengpässe und verwirft scheinbar vorteilhafte Optimierungen, die die Leistung beeinträchtigen.
Die Fähigkeiten von CUDA-L1 zeigen, dass Reinforcement Learning ein zunächst leistungsschwaches LLM allein durch beschleunigungsbasierte Belohnungssignale in einen effektiven CUDA-Optimierer verwandeln kann, ohne menschliche Expertise oder Domänenwissen. Noch wichtiger ist, dass das trainierte RL-Modell die erworbenen Fähigkeiten zur Problemlösung auf neue Kernel ausdehnt. Dieses Paradigma eröffnet Möglichkeiten für die automatisierte Optimierung von CUDA-Operationen und verspricht, die GPU-Effizienz erheblich zu steigern und den wachsenden Druck auf GPU-Computing-Ressourcen zu verringern.
English
The exponential growth in demand for GPU computing resources, driven by the
rapid advancement of Large Language Models, has created an urgent need for
automated CUDA optimization strategies. While recent advances in LLMs show
promise for code generation, current SOTA models (e.g. R1, o1) achieve low
success rates in improving CUDA speed. In this paper, we introduce CUDA-L1, an
automated reinforcement learning framework for CUDA optimization.
CUDA-L1 achieves performance improvements on the CUDA optimization task:
trained on NVIDIA A100, it delivers an average speedup of x17.7 across all 250
CUDA kernels of KernelBench, with peak speedups reaching x449. Furthermore, the
model also demonstrates excellent portability across GPU architectures,
achieving average speedups of x17.8 on H100, x19.0 on RTX 3090, x16.5 on L40,
x14.7 on H800, and x13.9 on H20 despite being optimized specifically for A100.
Beyond these benchmark results, CUDA-L1 demonstrates several remarkable
properties: 1) Discovers a variety of CUDA optimization techniques and learns
to combine them strategically to achieve optimal performance; 2) Uncovers
fundamental principles of CUDA optimization; 3) Identifies non-obvious
performance bottlenecks and rejects seemingly beneficial optimizations that
harm performance.
The capabilities of CUDA-L1 demonstrate that reinforcement learning can
transform an initially poor-performing LLM into an effective CUDA optimizer
through speedup-based reward signals alone, without human expertise or domain
knowledge. More importantly, the trained RL model extend the acquired reasoning
abilities to new kernels. This paradigm opens possibilities for automated
optimization of CUDA operations, and holds promise to substantially promote GPU
efficiency and alleviate the rising pressure on GPU computing resources.