FastKernels: Бенчмаркинг генерации ядер GPU в производственной среде

Аннотация

Агенты на основе LLM для генерации GPU-ядер быстро развиваются, однако их прогресс принципиально ограничивается бенчмарками, под которые они оптимизируются. Существующие бенчмарки плохо согласованы с производственными фреймворками инференса: они оценивают ядра на одном GPU с синтетическими входными данными, игнорируют окружающий стек компиляции и поощряют воспроизведение известных оптимизаций, а не поиск новых. Получаемые сигналы вознаграждения вводят в заблуждение: агенты учатся генерировать ядра, которые хорошо показывают себя в песочницах, но при интеграции в реальные системы вызывают несовместимость интерфейсов, конфликты в стеке компиляции и скрытое ухудшение корректности. Мы представляем FastKernels — бенчмарк для ядер, построенный на минимальном наборе из 46 репрезентативных архитектур, охватывающих 8 категорий, чьи ядра в совокупности покрывают ядра 96,2% (409/425) архитектур HuggingFace Transformers. FastKernels также выступает в качестве минималистичного производственного фреймворка инференса, который работает наравне с закаленными системами, такими как vLLM и SGLang, при обслуживании основных LLM и существенно превосходит эталонные реализации для недостаточно обслуживаемых архитектур; интерфейс каждой задачи повторяет соответствующий модуль из современной библиотеки для своего семейства архитектур, что позволяет напрямую развертывать оптимизированные ядра в производственных кодовых базах. Оценивая современные агенты для ядер на FastKernels, мы обнаружили, что даже самый сильный агент достигает лишь 0,94-кратного общего ускорения относительно производственных базовых показателей, а более слабые агенты — 0,78-кратного и 0,53-кратного, что подтверждает, что несоответствие между бенчмарками и производством является критическим узким местом в данной области. Мы публикуем FastKernels как ступеньку на пути к агентам для ядер, чьи бенчмарковые достижения напрямую преобразуются в улучшение производственной пропускной способности. Код доступен по адресу https://github.com/Snowflake-AI-Research/fastkernels

English

LLM-based agents for GPU kernel generation are advancing rapidly, yet their progress is fundamentally constrained by the benchmarks they optimize against. Existing benchmarks are poorly aligned with production inference frameworks: they evaluate kernels on a single GPU with synthetic inputs, ignore the surrounding compilation stack, and reward replicating known optimizations rather than discovering new ones. The resulting reward signals are misleading: agents learn to generate kernels that score well in sandboxes but introduce interface incompatibilities, compilation-stack conflicts, and silent correctness degradation when integrated into real systems. We introduce FastKernels, a kernel benchmark built around a minimal set of 46 representative architectures spanning 8 categories, whose kernels collectively subsume those of 96.2% (409/425) of HuggingFace Transformers architectures. FastKernels doubles as a minimalistic, production-grade inference framework that runs at parity with hardened systems such as vLLM and SGLang on mainstream LLM serving and substantially exceeds upstream references on under-served architectures; each task's interface mirrors the corresponding module in the state-of-the-art library for its architecture family, enabling direct deployment of optimized kernels into production codebases. Evaluating state-of-the-art kernel agents on FastKernels, we find that even the strongest agent achieves only 0.94times aggregate speedup over production baselines, with weaker agents at 0.78times and 0.53times -- confirming that benchmark-production misalignment is a critical bottleneck for the field. We release FastKernels as a stepping stone toward kernel agents whose benchmark gains translate directly into production throughput improvements. Code is available at https://github.com/Snowflake-AI-Research/fastkernels