AIDE: AI-gestuurde verkenning in de ruimte van code

Samenvatting

Machine learning, de basis van moderne kunstmatige intelligentie, heeft innovaties aangestuurd die de wereld fundamenteel hebben getransformeerd. Echter, achter deze vooruitgang schuilt een complex en vaak moeizaam proces dat arbeidsintensieve en rekenkrachtige iteratie en experimentatie vereist. Ingenieurs en wetenschappers die machine learning-modellen ontwikkelen, besteden een groot deel van hun tijd aan trial-and-error taken in plaats van het bedenken van innovatieve oplossingen of onderzoekshypothesen. Om deze uitdaging aan te pakken, introduceren we AI-Driven Exploration (AIDE), een machine learning-engineering agent aangedreven door grote taalmodellen (LLMs). AIDE benadert machine learning-engineering als een code-optimalisatieprobleem en formuleert trial-and-error als een boomzoektocht in de ruimte van mogelijke oplossingen. Door strategisch veelbelovende oplossingen te hergebruiken en te verfijnen, wisselt AIDE effectief rekenbronnen in voor verbeterde prestaties, wat resulteert in state-of-the-art resultaten op meerdere machine learning-engineering benchmarks, waaronder onze Kaggle-evaluaties, OpenAI MLE-Bench en METRs RE-Bench.

English

Machine learning, the foundation of modern artificial intelligence, has driven innovations that have fundamentally transformed the world. Yet, behind advancements lies a complex and often tedious process requiring labor and compute intensive iteration and experimentation. Engineers and scientists developing machine learning models spend much of their time on trial-and-error tasks instead of conceptualizing innovative solutions or research hypotheses. To address this challenge, we introduce AI-Driven Exploration (AIDE), a machine learning engineering agent powered by large language models (LLMs). AIDE frames machine learning engineering as a code optimization problem, and formulates trial-and-error as a tree search in the space of potential solutions. By strategically reusing and refining promising solutions, AIDE effectively trades computational resources for enhanced performance, achieving state-of-the-art results on multiple machine learning engineering benchmarks, including our Kaggle evaluations, OpenAI MLE-Bench and METRs RE-Bench.

AIDE: AI-gestuurde verkenning in de ruimte van code

AIDE: AI-Driven Exploration in the Space of Code

Samenvatting

Support