AIDE: KI-gesteuerte Exploration im Raum des Codes

papers.abstract

Maschinelles Lernen, die Grundlage der modernen künstlichen Intelligenz, hat Innovationen vorangetrieben, die die Welt grundlegend verändert haben. Doch hinter diesen Fortschritten verbirgt sich ein komplexer und oft mühsamer Prozess, der arbeits- und rechenintensive Iterationen und Experimente erfordert. Ingenieure und Wissenschaftler, die maschinelle Lernmodelle entwickeln, verbringen einen Großteil ihrer Zeit mit Trial-and-Error-Aufgaben, anstatt innovative Lösungen oder Forschungshypothesen zu konzipieren. Um diese Herausforderung zu bewältigen, stellen wir AI-Driven Exploration (AIDE) vor, einen maschinellen Lern-Engineering-Agenten, der von großen Sprachmodellen (LLMs) angetrieben wird. AIDE betrachtet maschinelles Lern-Engineering als ein Code-Optimierungsproblem und formuliert Trial-and-Error als eine Baumsuche im Raum der möglichen Lösungen. Durch strategisches Wiederverwenden und Verfeinern vielversprechender Lösungen tauscht AIDE effektiv Rechenressourcen gegen verbesserte Leistung ein und erzielt state-of-the-art Ergebnisse in mehreren maschinellen Lern-Engineering-Benchmarks, einschließlich unserer Kaggle-Bewertungen, OpenAI MLE-Bench und METRs RE-Bench.

English

Machine learning, the foundation of modern artificial intelligence, has driven innovations that have fundamentally transformed the world. Yet, behind advancements lies a complex and often tedious process requiring labor and compute intensive iteration and experimentation. Engineers and scientists developing machine learning models spend much of their time on trial-and-error tasks instead of conceptualizing innovative solutions or research hypotheses. To address this challenge, we introduce AI-Driven Exploration (AIDE), a machine learning engineering agent powered by large language models (LLMs). AIDE frames machine learning engineering as a code optimization problem, and formulates trial-and-error as a tree search in the space of potential solutions. By strategically reusing and refining promising solutions, AIDE effectively trades computational resources for enhanced performance, achieving state-of-the-art results on multiple machine learning engineering benchmarks, including our Kaggle evaluations, OpenAI MLE-Bench and METRs RE-Bench.

AIDE: KI-gesteuerte Exploration im Raum des Codes

AIDE: AI-Driven Exploration in the Space of Code

papers.abstract

Support