AccelOpt: un sistema agente LLM auto-migliorante per l'ottimizzazione dei kernel di acceleratori AI

Abstract

Presentiamo AccelOpt, un sistema agente basato su un modello linguistico di grandi dimensioni (LLM) auto-migliorante che ottimizza autonomamente i kernel per i nuovi acceleratori per l'IA, eliminando la necessità di conoscenze di ottimizzazione specifiche per l'hardware fornite da esperti. AccelOpt esplora lo spazio di ottimizzazione dei kernel attraverso una generazione iterativa, guidata da una memoria di ottimizzazione che raccoglie esperienze e insight da coppie di kernel lenti-veloci incontrate in precedenza. Abbiamo creato NKIBench, una nuova suite di benchmark composta da kernel per l'acceleratore AWS Trainium con complessità variabile, estratti da carichi di lavoro LLM del mondo reale, per valutare l'efficacia di AccelOpt. La nostra valutazione conferma che la capacità di AccelOpt migliora nel tempo, aumentando la percentuale media di picco di throughput dal 49% al 61% su Trainium 1 e dal 45% al 59% su Trainium 2 per i kernel NKIBench. Inoltre, AccelOpt è altamente conveniente: utilizzando modelli open-source, eguaglia i miglioramenti dei kernel ottenuti da Claude Sonnet 4 pur essendo 26 volte più economico. Il codice è open-source all'indirizzo https://github.com/zhang677/AccelOpt.

English

We present AccelOpt, a self-improving large language model (LLM) agentic system that autonomously optimizes kernels for emerging AI acclerators, eliminating the need for expert-provided hardware-specific optimization knowledge. AccelOpt explores the kernel optimization space through iterative generation, informed by an optimization memory that curates experiences and insights from previously encountered slow-fast kernel pairs. We build NKIBench, a new benchmark suite of AWS Trainium accelerator kernels with varying complexity extracted from real-world LLM workloads to evaluate the effectiveness of AccelOpt. Our evaluation confirms that AccelOpt's capability improves over time, boosting the average percentage of peak throughput from 49% to 61% on Trainium 1 and from 45% to 59% on Trainium 2 for NKIBench kernels. Moreover, AccelOpt is highly cost-effective: using open-source models, it matches the kernel improvements of Claude Sonnet 4 while being 26times cheaper. The code is open-sourced at https://github.com/zhang677/AccelOpt.

AccelOpt: un sistema agente LLM auto-migliorante per l'ottimizzazione dei kernel di acceleratori AI

AccelOpt: A Self-Improving LLM Agentic System for AI Accelerator Kernel Optimization

Abstract

Support