KernelBench-X: Een Uitgebreide Benchmark voor de Evaluatie van door LLM gegenereerde GPU-kernels

Samenvatting

Op LLM gebaseerde Triton-kernelgeneratie heeft aanzienlijke belangstelling getrokken, maar een fundamentele empirische vraag blijft onbeantwoord: waar loopt deze capaciteit vast en waarom? Wij presenteren KernelBench-X, een benchmark ontworpen om deze vraag te beantwoorden door categoriebewuste evaluatie van correctheid en hardware-efficiëntie over 176 taken in 15 categorieën. Onze systematische vergelijking van vijf representatieve methodes levert drie hoofdbevindingen op. Ten eerste bepaalt taakstructuur correctheid meer dan methodedesign. Categorie verklaart bijna drie keer meer variantie in semantische correctheid dan methode (9,4% vs 3,3% verklaarde deviantie), en 72% van de Fusion-taken faalt bij alle vijf methodes terwijl Math-taken consistent worden opgelost. Ten tweede verbetert iteratieve verfijning correctheid, maar niet prestaties. Over GEAK-iteraties stijgt de compilatiesnelheid van 52,3% naar 68,8% terwijl de gemiddelde snelheidswinst daalt van 1,58× naar 1,44×; nieuw geredde kernels presteren consistent slechter dan persistent correcte (1,16× vs 1,58× snelheidswinst in ronde~0tot1). Ten derde impliceert correctheid geen efficiëntie. 46,6% van correcte kernels is langzamer dan de PyTorch eager baseline, en cross-hardware snelheidswinstvariantie bereikt 21,4×. Daarnaast blijft kwantisering volledig onopgelost (0/30 successen) ondanks niet-triviale compilatiesnelheden, wat een systematisch misverstand van numerieke rekencontracten onthult in plaats van oppervlakkige syntaxfouten. Deze bevindingen suggereren dat toekomstige vooruitgang afhangt van het hanteren van globale coördinatie, expliciet modelleren van numerieke precisie, en incorporeren van hardware-efficiëntie in generatie. De code is beschikbaar op https://github.com/BonnieW05/KernelBenchX.

English

LLM-based Triton kernel generation has attracted significant interest, yet a fundamental empirical question remains unanswered: where does this capability break down, and why? We present KernelBench-X, a benchmark designed to answer this question through category-aware evaluation of correctness and hardware efficiency across 176 tasks in 15 categories. Our systematic comparison of five representative methods yields three main findings. First, task structure determines correctness more than method design. Category explains nearly three times more variance in semantic correctness than method (9.4% vs 3.3% explained deviance), and 72% of Fusion tasks fail across all five methods while Math tasks are solved consistently. Second, iterative refinement improves correctness, but not performance. Across GEAK iterations, compile rate rises from 52.3% to 68.8% while average speedup declines from 1.58times to 1.44times; newly rescued kernels consistently underperform persistently correct ones (1.16times vs 1.58times speedup in round~0to1). Third, correctness does not imply efficiency. 46.6% of correct kernels are slower than the PyTorch eager baseline, and cross-hardware speedup variance reaches 21.4times. Besides, quantization remains completely unsolved (0/30 successes) despite non-trivial compilation rates, revealing systematic misunderstanding of numerical computation contracts rather than surface-level syntax errors. These findings suggest that future progress depends on handling global coordination, explicitly modeling numerical precision, and incorporating hardware efficiency into generation. The code is available at https://github.com/BonnieW05/KernelBenchX

KernelBench-X: Een Uitgebreide Benchmark voor de Evaluatie van door LLM gegenereerde GPU-kernels

KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

Samenvatting

Support