AIDE: Exploração Orientada por IA no Espaço de Códigos
AIDE: AI-Driven Exploration in the Space of Code
February 18, 2025
Autores: Zhengyao Jiang, Dominik Schmidt, Dhruv Srikanth, Dixing Xu, Ian Kaplan, Deniss Jacenko, Yuxiang Wu
cs.AI
Resumo
O aprendizado de máquina, a base da inteligência artificial moderna, tem impulsionado inovações que transformaram fundamentalmente o mundo. No entanto, por trás desses avanços está um processo complexo e frequentemente tedioso, que exige iteração e experimentação intensivas em termos de mão de obra e poder computacional. Engenheiros e cientistas que desenvolvem modelos de aprendizado de máquina gastam grande parte do seu tempo em tarefas de tentativa e erro, em vez de conceber soluções inovadoras ou hipóteses de pesquisa. Para enfrentar esse desafio, apresentamos o AI-Driven Exploration (AIDE), um agente de engenharia de aprendizado de máquina impulsionado por modelos de linguagem de grande escala (LLMs). O AIDE enquadra a engenharia de aprendizado de máquina como um problema de otimização de código e formula a tentativa e erro como uma busca em árvore no espaço de soluções potenciais. Ao reutilizar e refinar estrategicamente soluções promissoras, o AIDE troca eficientemente recursos computacionais por desempenho aprimorado, alcançando resultados de ponta em diversos benchmarks de engenharia de aprendizado de máquina, incluindo nossas avaliações no Kaggle, o MLE-Bench da OpenAI e o RE-Bench do METRs.
English
Machine learning, the foundation of modern artificial intelligence, has
driven innovations that have fundamentally transformed the world. Yet, behind
advancements lies a complex and often tedious process requiring labor and
compute intensive iteration and experimentation. Engineers and scientists
developing machine learning models spend much of their time on trial-and-error
tasks instead of conceptualizing innovative solutions or research hypotheses.
To address this challenge, we introduce AI-Driven Exploration (AIDE), a machine
learning engineering agent powered by large language models (LLMs). AIDE frames
machine learning engineering as a code optimization problem, and formulates
trial-and-error as a tree search in the space of potential solutions. By
strategically reusing and refining promising solutions, AIDE effectively trades
computational resources for enhanced performance, achieving state-of-the-art
results on multiple machine learning engineering benchmarks, including our
Kaggle evaluations, OpenAI MLE-Bench and METRs RE-Bench.Summary
AI-Generated Summary