AccelOpt: un sistema agente LLM auto-migliorante per l'ottimizzazione dei kernel di acceleratori AI
AccelOpt: A Self-Improving LLM Agentic System for AI Accelerator Kernel Optimization
April 15, 2026
Autori: Genghan Zhang, Shaowei Zhu, Anjiang Wei, Zhenyu Song, Allen Nie, Zhen Jia, Nandita Vijaykumar, Yida Wang, Kunle Olukotun
cs.AI
Abstract
Presentiamo AccelOpt, un sistema agente basato su un modello linguistico di grandi dimensioni (LLM) auto-migliorante che ottimizza autonomamente i kernel per i nuovi acceleratori per l'IA, eliminando la necessità di conoscenze di ottimizzazione specifiche per l'hardware fornite da esperti. AccelOpt esplora lo spazio di ottimizzazione dei kernel attraverso una generazione iterativa, guidata da una memoria di ottimizzazione che raccoglie esperienze e insight da coppie di kernel lenti-veloci incontrate in precedenza. Abbiamo creato NKIBench, una nuova suite di benchmark composta da kernel per l'acceleratore AWS Trainium con complessità variabile, estratti da carichi di lavoro LLM del mondo reale, per valutare l'efficacia di AccelOpt. La nostra valutazione conferma che la capacità di AccelOpt migliora nel tempo, aumentando la percentuale media di picco di throughput dal 49% al 61% su Trainium 1 e dal 45% al 59% su Trainium 2 per i kernel NKIBench. Inoltre, AccelOpt è altamente conveniente: utilizzando modelli open-source, eguaglia i miglioramenti dei kernel ottenuti da Claude Sonnet 4 pur essendo 26 volte più economico. Il codice è open-source all'indirizzo https://github.com/zhang677/AccelOpt.
English
We present AccelOpt, a self-improving large language model (LLM) agentic system that autonomously optimizes kernels for emerging AI acclerators, eliminating the need for expert-provided hardware-specific optimization knowledge. AccelOpt explores the kernel optimization space through iterative generation, informed by an optimization memory that curates experiences and insights from previously encountered slow-fast kernel pairs. We build NKIBench, a new benchmark suite of AWS Trainium accelerator kernels with varying complexity extracted from real-world LLM workloads to evaluate the effectiveness of AccelOpt. Our evaluation confirms that AccelOpt's capability improves over time, boosting the average percentage of peak throughput from 49% to 61% on Trainium 1 and from 45% to 59% on Trainium 2 for NKIBench kernels. Moreover, AccelOpt is highly cost-effective: using open-source models, it matches the kernel improvements of Claude Sonnet 4 while being 26times cheaper. The code is open-sourced at https://github.com/zhang677/AccelOpt.