KernelBench-X: Un Benchmark Integral para la Evaluación de Kernels de GPU Generados por LLM

Resumen

La generación de núcleos Triton basada en LLM ha atraído un interés significativo, pero una pregunta empírica fundamental sigue sin respuesta: ¿dónde se descompone esta capacidad y por qué? Presentamos KernelBench-X, un benchmark diseñado para responder a esta pregunta mediante la evaluación consciente de la categoría de la corrección y la eficiencia del hardware en 176 tareas de 15 categorías. Nuestra comparación sistemática de cinco métodos representativos produce tres hallazgos principales. Primero, la estructura de la tarea determina la corrección más que el diseño del método. La categoría explica casi tres veces más varianza en la corrección semántica que el método (9.4% vs 3.3% de desviación explicada), y el 72% de las tareas de Fusión fallan en los cinco métodos, mientras que las tareas Matemáticas se resuelven consistentemente. Segundo, el refinamiento iterativo mejora la corrección, pero no el rendimiento. A través de las iteraciones de GEAK, la tasa de compilación aumenta del 52.3% al 68.8%, mientras que la aceleración promedio disminuye de 1.58x a 1.44x; los núcleos recién rescatados consistentemente rinden por debajo de los persistentemente correctos (1.16x vs 1.58x de aceleración en la ronda~0a1). Tercero, la corrección no implica eficiencia. El 46.6% de los núcleos correctos son más lentos que la línea base eager de PyTorch, y la varianza de aceleración entre hardware alcanza 21.4x. Además, la cuantización permanece completamente sin resolver (0/30 éxitos) a pesar de tasas de compilación no triviales, revelando un malentendido sistemático de los contratos de cómputo numérico en lugar de errores sintácticos superficiales. Estos hallazgos sugieren que el progreso futuro depende de manejar la coordinación global, modelar explícitamente la precisión numérica e incorporar la eficiencia del hardware en la generación. El código está disponible en https://github.com/BonnieW05/KernelBenchX.

English

LLM-based Triton kernel generation has attracted significant interest, yet a fundamental empirical question remains unanswered: where does this capability break down, and why? We present KernelBench-X, a benchmark designed to answer this question through category-aware evaluation of correctness and hardware efficiency across 176 tasks in 15 categories. Our systematic comparison of five representative methods yields three main findings. First, task structure determines correctness more than method design. Category explains nearly three times more variance in semantic correctness than method (9.4% vs 3.3% explained deviance), and 72% of Fusion tasks fail across all five methods while Math tasks are solved consistently. Second, iterative refinement improves correctness, but not performance. Across GEAK iterations, compile rate rises from 52.3% to 68.8% while average speedup declines from 1.58times to 1.44times; newly rescued kernels consistently underperform persistently correct ones (1.16times vs 1.58times speedup in round~0to1). Third, correctness does not imply efficiency. 46.6% of correct kernels are slower than the PyTorch eager baseline, and cross-hardware speedup variance reaches 21.4times. Besides, quantization remains completely unsolved (0/30 successes) despite non-trivial compilation rates, revealing systematic misunderstanding of numerical computation contracts rather than surface-level syntax errors. These findings suggest that future progress depends on handling global coordination, explicitly modeling numerical precision, and incorporating hardware efficiency into generation. The code is available at https://github.com/BonnieW05/KernelBenchX

KernelBench-X: Un Benchmark Integral para la Evaluación de Kernels de GPU Generados por LLM

KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

Resumen

Support