AIDE: Исследование пространства кода с использованием искусственного интеллекта

Аннотация

Машинное обучение, основа современного искусственного интеллекта, стало движущей силой инноваций, которые коренным образом изменили мир. Однако за этими достижениями скрывается сложный и зачастую утомительный процесс, требующий трудоемких и вычислительно интенсивных итераций и экспериментов. Инженеры и ученые, разрабатывающие модели машинного обучения, тратят большую часть своего времени на задачи методом проб и ошибок, вместо того чтобы сосредоточиться на концептуализации инновационных решений или исследовательских гипотез. Для решения этой проблемы мы представляем AI-Driven Exploration (AIDE) — агента инженерии машинного обучения, основанного на больших языковых моделях (LLM). AIDE рассматривает инженерию машинного обучения как задачу оптимизации кода и формулирует процесс проб и ошибок как поиск в дереве возможных решений. Стратегически повторно используя и улучшая перспективные решения, AIDE эффективно обменивает вычислительные ресурсы на повышение производительности, достигая передовых результатов на множестве эталонных тестов инженерии машинного обучения, включая наши оценки на Kaggle, OpenAI MLE-Bench и METRs RE-Bench.

English

Machine learning, the foundation of modern artificial intelligence, has driven innovations that have fundamentally transformed the world. Yet, behind advancements lies a complex and often tedious process requiring labor and compute intensive iteration and experimentation. Engineers and scientists developing machine learning models spend much of their time on trial-and-error tasks instead of conceptualizing innovative solutions or research hypotheses. To address this challenge, we introduce AI-Driven Exploration (AIDE), a machine learning engineering agent powered by large language models (LLMs). AIDE frames machine learning engineering as a code optimization problem, and formulates trial-and-error as a tree search in the space of potential solutions. By strategically reusing and refining promising solutions, AIDE effectively trades computational resources for enhanced performance, achieving state-of-the-art results on multiple machine learning engineering benchmarks, including our Kaggle evaluations, OpenAI MLE-Bench and METRs RE-Bench.

AIDE: Исследование пространства кода с использованием искусственного интеллекта

AIDE: AI-Driven Exploration in the Space of Code

Аннотация

Support