AccelOpt: Um Sistema Agente de LLM de Autoaprimoramento para Otimização de Kernels de Aceleradores de IA
AccelOpt: A Self-Improving LLM Agentic System for AI Accelerator Kernel Optimization
April 15, 2026
Autores: Genghan Zhang, Shaowei Zhu, Anjiang Wei, Zhenyu Song, Allen Nie, Zhen Jia, Nandita Vijaykumar, Yida Wang, Kunle Olukotun
cs.AI
Resumo
Apresentamos o AccelOpt, um sistema agente de modelo de linguagem de grande escala (LLM) com capacidade de autoaprimoramento que otimiza kernels de forma autónoma para aceleradores de IA emergentes, eliminando a necessidade de conhecimento de otimização específico de hardware fornecido por especialistas. O AccelOpt explora o espaço de otimização de kernels através de geração iterativa, orientado por uma memória de otimização que seleciona experiências e insights de pares de kernels lentos-rápidos previamente encontrados. Construímos o NKIBench, um novo conjunto de benchmarks de kernels do acelerador AWS Trainium com complexidade variada, extraídos de cargas de trabalho reais de LLM, para avaliar a eficácia do AccelOpt. Nossa avaliação confirma que a capacidade do AccelOpt melhora ao longo do tempo, aumentando o percentual médio de taxa de transferência de pico de 49% para 61% no Trainium 1 e de 45% para 59% no Trainium 2 para os kernels do NKIBench. Além disso, o AccelOpt é altamente rentável: utilizando modelos de código aberto, ele iguala as melhorias de kernel do Claude Sonnet 4 enquanto é 26 vezes mais barato. O código é de código aberto em https://github.com/zhang677/AccelOpt.
English
We present AccelOpt, a self-improving large language model (LLM) agentic system that autonomously optimizes kernels for emerging AI acclerators, eliminating the need for expert-provided hardware-specific optimization knowledge. AccelOpt explores the kernel optimization space through iterative generation, informed by an optimization memory that curates experiences and insights from previously encountered slow-fast kernel pairs. We build NKIBench, a new benchmark suite of AWS Trainium accelerator kernels with varying complexity extracted from real-world LLM workloads to evaluate the effectiveness of AccelOpt. Our evaluation confirms that AccelOpt's capability improves over time, boosting the average percentage of peak throughput from 49% to 61% on Trainium 1 and from 45% to 59% on Trainium 2 for NKIBench kernels. Moreover, AccelOpt is highly cost-effective: using open-source models, it matches the kernel improvements of Claude Sonnet 4 while being 26times cheaper. The code is open-sourced at https://github.com/zhang677/AccelOpt.