AVO: 자율 진화 탐색을 위한 행위주적 변이 연산자
AVO: Agentic Variation Operators for Autonomous Evolutionary Search
March 25, 2026
저자: Terry Chen, Zhifan Ye, Bing Xu, Zihao Ye, Timmy Liu, Ali Hassani, Tianqi Chen, Andrew Kerr, Haicheng Wu, Yang Xu, Yu-Jung Chen, Hanfeng Chen, Aditya Kane, Ronny Krashinsky, Ming-Yu Liu, Vinod Grover, Luis Ceze, Roger Bringmann, John Tran, Wei Liu, Fung Xie, Michael Lightstone, Humphrey Shi
cs.AI
초록
에이전트 변이 연산자(AVO)는 고정된 돌연변이, 교차 및 수동 설계 휴리스틱을 자율 코딩 에이전트로 대체하는 새로운 진화적 변이 연산자 계열입니다. AVO는 언어 모델을 정해진 파이프라인 내 후보 생성으로 제한하기보다, 현재 계보, 도메인 특화 지식 베이스 및 실행 피드백을 참고하여 구현 수정을 제안, 수정, 비판 및 검증할 수 있는 자율 주도적 에이전트 루프로 변이를 구현합니다. 우리는 AVO를 AI에서 가장 적극적으로 최적화되는 커널 대상 중 하나인 어텐션에 대해 NVIDIA Blackwell(B200) GPU에서 평가합니다. 다중 헤드 어텐션에 대한 7일간의 지속적 자율 진화를 통해 AVO는 평가된 구성 전체에서 cuDNN을 최대 3.5%, FlashAttention-4를 최대 10.5% 능가하는 커널을 발견합니다. 발견된 최적화는 그룹화된 쿼리 어텐션으로 쉽게 전이되어, 추가로 30분의 자율 적응만으로 cuDNN 대비 최대 7.0%, FlashAttention-4 대비 최대 9.3%의 성능 향상을 제공합니다. 종합적으로, 이러한 결과는 에이전트 변이 연산자가 에이전트를 후보 생성기에서 변이 연산자로 격상시켜 기존 LLM 연계 진화 파이프라인을 넘어서며, 최첨단 GPU 하드웨어에서 전문가가 설계한 최첨단 어텐션 구현을 능가하는 커널을 생성하는 성능 중추적인 미시 아키텍처 최적화를 발견할 수 있음을 보여줍니다.
English
Agentic Variation Operators (AVO) are a new family of evolutionary variation operators that replace the fixed mutation, crossover, and hand-designed heuristics of classical evolutionary search with autonomous coding agents. Rather than confining a language model to candidate generation within a prescribed pipeline, AVO instantiates variation as a self-directed agent loop that can consult the current lineage, a domain-specific knowledge base, and execution feedback to propose, repair, critique, and verify implementation edits. We evaluate AVO on attention, among the most aggressively optimized kernel targets in AI, on NVIDIA Blackwell (B200) GPUs. Over 7 days of continuous autonomous evolution on multi-head attention, AVO discovers kernels that outperform cuDNN by up to 3.5% and FlashAttention-4 by up to 10.5% across the evaluated configurations. The discovered optimizations transfer readily to grouped-query attention, requiring only 30 minutes of additional autonomous adaptation and yielding gains of up to 7.0% over cuDNN and 9.3% over FlashAttention-4. Together, these results show that agentic variation operators move beyond prior LLM-in-the-loop evolutionary pipelines by elevating the agent from candidate generator to variation operator, and can discover performance-critical micro-architectural optimizations that produce kernels surpassing state-of-the-art expert-engineered attention implementations on today's most advanced GPU hardware.