ChatPaper.aiChatPaper

AccelOpt: Een Zelfverbeterend LLM-Agentensysteem voor Optimalisatie van AI-Accelerator-Kernels

AccelOpt: A Self-Improving LLM Agentic System for AI Accelerator Kernel Optimization

April 15, 2026
Auteurs: Genghan Zhang, Shaowei Zhu, Anjiang Wei, Zhenyu Song, Allen Nie, Zhen Jia, Nandita Vijaykumar, Yida Wang, Kunle Olukotun
cs.AI

Samenvatting

Wij presenteren AccelOpt, een zichzelf verbeterend agent-systeem op basis van een groot taalmodel (LLM) dat autonoom kernels optimaliseert voor opkomende AI-accelerators, zonder dat hiervoor hardware-specifieke optimalisatiekennis van experts nodig is. AccelOpt verkent de kernel-optimalisatieruimte via iteratieve generatie, ondersteund door een optimalisatiegeheugen dat ervaringen en inzichten beheert van eerder tegengekomen langzaam-snel kernelparen. Wij hebben NKIBench ontwikkeld, een nieuwe benchmark-suite met kernels voor AWS Trainium-accelerators van uiteenlopende complexiteit, ontleend aan real-world LLM-workloads, om de effectiviteit van AccelOpt te evalueren. Onze evaluatie bevestigt dat de capaciteit van AccelOpt in de loop van de tijd verbetert, waarbij het gemiddelde percentage van de piekdoorvoer stijgt van 49% naar 61% op Trainium 1 en van 45% naar 59% op Trainium 2 voor de NKIBench-kernels. Bovendien is AccelOpt zeer kosteneffectief: met open-source modellen evenaart het de kernelverbeteringen van Claude Sonnet 4, terwijl het 26 keer goedkoper is. De code is open-source beschikbaar op https://github.com/zhang677/AccelOpt.
English
We present AccelOpt, a self-improving large language model (LLM) agentic system that autonomously optimizes kernels for emerging AI acclerators, eliminating the need for expert-provided hardware-specific optimization knowledge. AccelOpt explores the kernel optimization space through iterative generation, informed by an optimization memory that curates experiences and insights from previously encountered slow-fast kernel pairs. We build NKIBench, a new benchmark suite of AWS Trainium accelerator kernels with varying complexity extracted from real-world LLM workloads to evaluate the effectiveness of AccelOpt. Our evaluation confirms that AccelOpt's capability improves over time, boosting the average percentage of peak throughput from 49% to 61% on Trainium 1 and from 45% to 59% on Trainium 2 for NKIBench kernels. Moreover, AccelOpt is highly cost-effective: using open-source models, it matches the kernel improvements of Claude Sonnet 4 while being 26times cheaper. The code is open-sourced at https://github.com/zhang677/AccelOpt.
PDF21April 21, 2026