ChatPaper.aiChatPaper

KernelEvolve: Skalierbares agentenbasiertes Kernel-Coding für heterogene KI-Beschleuniger bei Meta

KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta

December 29, 2025
papers.authors: Gang Liao, Hongsen Qin, Ying Wang, Alicia Golden, Michael Kuchnik, Yavuz Yetim, Jia Jiunn Ang, Chunli Fu, Yihan He, Samuel Hsia, Zewei Jiang, Dianshi Li, Uladzimir Pashkevich, Varna Puvvada, Feng Shi, Matt Steiner, Ruichao Xiao, Nathan Yan, Xiayu Yu, Zhou Fang, Abdul Zainul-Abedin, Ketan Singh, Hongtao Yu, Wenyuan Chi, Barney Huang, Sean Zhang, Noah Weller, Zach Marine, Wyatt Cook, Carole-Jean Wu, Gaoxiang Liu
cs.AI

papers.abstract

Die Beschleunigung und Effizienzsteigerung von Training und Inferenz tiefer Empfehlungsmodelle (DLRM) ist von großer Bedeutung. Dies wirft jedoch drei zentrale Systemherausforderungen auf: die Diversität der Modellarchitekturen, die Vielfalt der Kernel-Primitive sowie die Heterogenität der Hardware-Generationen und -Architekturen. Dieses Paper stellt KernelEvolve vor – einen agentenbasierten Kernel-Code-Rahmen – um Heterogenität im großen Maßstab für DLRM zu bewältigen. KernelEvolve ist darauf ausgelegt, Kernel-Spezifikationen als Eingabe zu nehmen und den Prozess der Kernel-Generierung und -Optimierung für Empfehlungsmodelle über heterogene Hardware-Architekturen hinweg zu automatisieren. Dies erreicht KernelEvolve, indem es auf mehreren Programmierabstraktionsebenen operiert – von Triton- und CuTe-DSLs bis hin zu hardwareunabhängigen Low-Level-Sprachen – und somit den gesamten Hardware-Software-Optimierungs-Stack abdeckt. Der Kernel-Optimierungsprozess wird als graphenbasierte Suche mit Auswahlrichtlinie, universellem Operator, Fitness-Funktion und Abbruchregel beschrieben, die sich dynamisch an den Laufzeitausführungskontext durch retrieval-erweiterte Prompt-Synthese anpasst. Wir haben KernelEvolve entworfen, implementiert und eingesetzt, um eine Vielzahl von Produktions-Empfehlungsmodellen über Generationen von NVIDIA- und AMD-GPUs sowie Metas AI-Beschleunigern hinweg zu optimieren. Wir validieren KernelEvolve anhand der öffentlich verfügbaren KernelBench-Suite, erreichen eine 100%ige Bestehensrate bei allen 250 Problemen über drei Schwierigkeitsgrade hinweg sowie bei 160 PyTorch-ATen-Operatoren über drei heterogene Hardware-Plattformen, was 100%ige Korrektheit demonstriert. KernelEvolve reduziert die Entwicklungszeit von Wochen auf Stunden und erzielt erhebliche Leistungsverbesserungen gegenüber PyTorch-Baselines in diversen Produktionsszenarien und für heterogene KI-Systeme im großen Maßstab. Über Leistungsverbesserungen hinaus verringert KernelEvolve die Programmierbarriere für neue KI-Hardware erheblich, indem es automatisierte Kernel-Generierung für intern entwickelte KI-Hardware ermöglicht.
English
Making deep learning recommendation model (DLRM) training and inference fast and efficient is important. However, this presents three key system challenges - model architecture diversity, kernel primitive diversity, and hardware generation and architecture heterogeneity. This paper presents KernelEvolve-an agentic kernel coding framework-to tackle heterogeneity at-scale for DLRM. KernelEvolve is designed to take kernel specifications as input and automate the process of kernel generation and optimization for recommendation model across heterogeneous hardware architectures. KernelEvolve does so by operating at multiple programming abstractions, from Triton and CuTe DSL to low-level hardware agnostic languages, spanning the full hardware-software optimization stack. The kernel optimization process is described as graph-based search with selection policy, universal operator, fitness function, and termination rule, dynamically adapts to runtime execution context through retrieval-augmented prompt synthesis. We designed, implemented, and deployed KernelEvolve to optimize a wide variety of production recommendation models across generations of NVIDIA and AMD GPUs, as well as Meta's AI accelerators. We validate KernelEvolve on the publicly-available KernelBench suite, achieving 100% pass rate on all 250 problems across three difficulty levels, and 160 PyTorch ATen operators across three heterogeneous hardware platforms, demonstrating 100% correctness. KernelEvolve reduces development time from weeks to hours and achieves substantial performance improvements over PyTorch baselines across diverse production use cases and for heterogeneous AI systems at-scale. Beyond performance efficiency improvements, KernelEvolve significantly mitigates the programmability barrier for new AI hardware by enabling automated kernel generation for in-house developed AI hardware.
PDF21December 31, 2025