AIDE: Exploração Orientada por IA no Espaço de Códigos

Resumo

O aprendizado de máquina, a base da inteligência artificial moderna, tem impulsionado inovações que transformaram fundamentalmente o mundo. No entanto, por trás desses avanços está um processo complexo e frequentemente tedioso, que exige iteração e experimentação intensivas em termos de mão de obra e poder computacional. Engenheiros e cientistas que desenvolvem modelos de aprendizado de máquina gastam grande parte do seu tempo em tarefas de tentativa e erro, em vez de conceber soluções inovadoras ou hipóteses de pesquisa. Para enfrentar esse desafio, apresentamos o AI-Driven Exploration (AIDE), um agente de engenharia de aprendizado de máquina impulsionado por modelos de linguagem de grande escala (LLMs). O AIDE enquadra a engenharia de aprendizado de máquina como um problema de otimização de código e formula a tentativa e erro como uma busca em árvore no espaço de soluções potenciais. Ao reutilizar e refinar estrategicamente soluções promissoras, o AIDE troca eficientemente recursos computacionais por desempenho aprimorado, alcançando resultados de ponta em diversos benchmarks de engenharia de aprendizado de máquina, incluindo nossas avaliações no Kaggle, o MLE-Bench da OpenAI e o RE-Bench do METRs.

English

Machine learning, the foundation of modern artificial intelligence, has driven innovations that have fundamentally transformed the world. Yet, behind advancements lies a complex and often tedious process requiring labor and compute intensive iteration and experimentation. Engineers and scientists developing machine learning models spend much of their time on trial-and-error tasks instead of conceptualizing innovative solutions or research hypotheses. To address this challenge, we introduce AI-Driven Exploration (AIDE), a machine learning engineering agent powered by large language models (LLMs). AIDE frames machine learning engineering as a code optimization problem, and formulates trial-and-error as a tree search in the space of potential solutions. By strategically reusing and refining promising solutions, AIDE effectively trades computational resources for enhanced performance, achieving state-of-the-art results on multiple machine learning engineering benchmarks, including our Kaggle evaluations, OpenAI MLE-Bench and METRs RE-Bench.

AIDE: Exploração Orientada por IA no Espaço de Códigos

AIDE: AI-Driven Exploration in the Space of Code

Resumo

Support