ChatPaper.aiChatPaper

CUDA-L1 : Amélioration de l'optimisation CUDA via l'apprentissage par renforcement contrastif

CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning

July 18, 2025
papers.authors: Xiaoya Li, Xiaofei Sun, Albert Wang, Jiwei Li, Chris Shum
cs.AI

papers.abstract

La croissance exponentielle de la demande en ressources de calcul GPU, alimentée par les progrès rapides des modèles de langage de grande taille (LLM), a créé un besoin urgent de stratégies automatisées d'optimisation CUDA. Bien que les avancées récentes des LLM montrent un potentiel pour la génération de code, les modèles actuels de pointe (par exemple, R1, o1) obtiennent des taux de réussite faibles dans l'amélioration de la vitesse CUDA. Dans cet article, nous présentons CUDA-L1, un cadre d'apprentissage par renforcement automatisé pour l'optimisation CUDA. CUDA-L1 réalise des améliorations de performance sur la tâche d'optimisation CUDA : entraîné sur un NVIDIA A100, il offre une accélération moyenne de x17,7 sur l'ensemble des 250 noyaux CUDA de KernelBench, avec des pics d'accélération atteignant x449. De plus, le modèle démontre également une excellente portabilité à travers les architectures GPU, obtenant des accélérations moyennes de x17,8 sur H100, x19,0 sur RTX 3090, x16,5 sur L40, x14,7 sur H800 et x13,9 sur H20, bien qu'il ait été spécifiquement optimisé pour A100. Au-delà de ces résultats de référence, CUDA-L1 présente plusieurs propriétés remarquables : 1) Il découvre une variété de techniques d'optimisation CUDA et apprend à les combiner stratégiquement pour atteindre des performances optimales ; 2) Il révèle des principes fondamentaux de l'optimisation CUDA ; 3) Il identifie des goulots d'étranglement de performance non évidents et rejette des optimisations apparemment bénéfiques qui nuisent aux performances. Les capacités de CUDA-L1 démontrent que l'apprentissage par renforcement peut transformer un LLM initialement peu performant en un optimiseur CUDA efficace uniquement grâce à des signaux de récompense basés sur l'accélération, sans expertise humaine ni connaissance du domaine. Plus important encore, le modèle RL entraîné étend ses capacités de raisonnement à de nouveaux noyaux. Ce paradigme ouvre des possibilités pour l'optimisation automatisée des opérations CUDA et promet d'améliorer considérablement l'efficacité des GPU, tout en atténuant la pression croissante sur les ressources de calcul GPU.
English
The exponential growth in demand for GPU computing resources, driven by the rapid advancement of Large Language Models, has created an urgent need for automated CUDA optimization strategies. While recent advances in LLMs show promise for code generation, current SOTA models (e.g. R1, o1) achieve low success rates in improving CUDA speed. In this paper, we introduce CUDA-L1, an automated reinforcement learning framework for CUDA optimization. CUDA-L1 achieves performance improvements on the CUDA optimization task: trained on NVIDIA A100, it delivers an average speedup of x17.7 across all 250 CUDA kernels of KernelBench, with peak speedups reaching x449. Furthermore, the model also demonstrates excellent portability across GPU architectures, achieving average speedups of x17.8 on H100, x19.0 on RTX 3090, x16.5 on L40, x14.7 on H800, and x13.9 on H20 despite being optimized specifically for A100. Beyond these benchmark results, CUDA-L1 demonstrates several remarkable properties: 1) Discovers a variety of CUDA optimization techniques and learns to combine them strategically to achieve optimal performance; 2) Uncovers fundamental principles of CUDA optimization; 3) Identifies non-obvious performance bottlenecks and rejects seemingly beneficial optimizations that harm performance. The capabilities of CUDA-L1 demonstrate that reinforcement learning can transform an initially poor-performing LLM into an effective CUDA optimizer through speedup-based reward signals alone, without human expertise or domain knowledge. More importantly, the trained RL model extend the acquired reasoning abilities to new kernels. This paradigm opens possibilities for automated optimization of CUDA operations, and holds promise to substantially promote GPU efficiency and alleviate the rising pressure on GPU computing resources.
PDF193July 30, 2025