KernelBench-X: LLM 생성 GPU 커널 평가를 위한 종합 벤치마크
KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels
May 6, 2026
저자: Han Wang, Jintao Zhang, Kai Jiang, Haoxu Wang, Jianfei Chen, Jun Zhu
cs.AI
초록
LLM 기반 Triton 커널 생성은 상당한 관심을 끌었으나, 근본적인 실증적 의문은 여전히 해결되지 않았습니다: 이 능력은 어디에서 한계에 부딪히며, 그 이유는 무엇인가? 우리는 이 문제에 답하기 위해 15개 범주에 걸친 176개 작업에 대해 범주 인식 정확도 및 하드웨어 효율성 평가를 수행하는 벤치마크인 KernelBench-X를 소개합니다. 5가지 대표적 방법론에 대한 체계적 비교를 통해 세 가지 주요 발견을 도출했습니다. 첫째, 작업 구조가 방법론 설계보다 정확도에 더 큰 영향을 미칩니다. 범주는 방법론 대비 의미적 정확도 변동을 약 3배 더 많이 설명하며(설명된 편차: 9.4% 대 3.3%), Fusion 작업의 72%는 5가지 방법론 모두에서 실패한 반면 Math 작업은 일관되게 해결되었습니다. 둘째, 반복적 정제는 정확도는 개선하지만 성능은 향상시키지 않습니다. GEAK 반복 과정에서 컴파일 성공률은 52.3%에서 68.8%로 상승한 반면, 평균 속도 향상은 1.58배에서 1.44배로 감소했습니다. 새로 복구된 커널은 지속적으로 정확한 커널보다 consistently 낮은 성능을 보였습니다(0~1차 반복에서 속도 향상: 1.16배 대 1.58배). 셋째, 정확성이 효율성을 보장하지 않습니다. 정확한 커널의 46.6%가 PyTorch eager 기준점보다 느렸으며, 하드웨어 간 속도 향상 변동은 21.4배에 달했습니다. 또한 양자화는 비록 비중 있는 컴파일 성공률에도 불구하고 완전히 미해결 상태이며(30개 작업 중 0개 성공), 이는 표면적 구문 오류가 아닌 수치 계산 규약에 대한 체계적 오해를 드러냅니다. 이러한 발견들은 향후 발전이 전역 조정 처리, 수치 정밀도 명시적 모델링, 그리고 생성 과정에 하드웨어 효율성 통합에 달려 있음을 시사합니다. 코드는 https://github.com/BonnieW05/KernelBenchX에서 이용 가능합니다.
English
LLM-based Triton kernel generation has attracted significant interest, yet a fundamental empirical question remains unanswered: where does this capability break down, and why? We present KernelBench-X, a benchmark designed to answer this question through category-aware evaluation of correctness and hardware efficiency across 176 tasks in 15 categories. Our systematic comparison of five representative methods yields three main findings. First, task structure determines correctness more than method design. Category explains nearly three times more variance in semantic correctness than method (9.4% vs 3.3% explained deviance), and 72% of Fusion tasks fail across all five methods while Math tasks are solved consistently. Second, iterative refinement improves correctness, but not performance. Across GEAK iterations, compile rate rises from 52.3% to 68.8% while average speedup declines from 1.58times to 1.44times; newly rescued kernels consistently underperform persistently correct ones (1.16times vs 1.58times speedup in round~0to1). Third, correctness does not imply efficiency. 46.6% of correct kernels are slower than the PyTorch eager baseline, and cross-hardware speedup variance reaches 21.4times. Besides, quantization remains completely unsolved (0/30 successes) despite non-trivial compilation rates, revealing systematic misunderstanding of numerical computation contracts rather than surface-level syntax errors. These findings suggest that future progress depends on handling global coordination, explicitly modeling numerical precision, and incorporating hardware efficiency into generation. The code is available at https://github.com/BonnieW05/KernelBenchX