Verso l'Ingegneria Autonoma a Lungo Orizzonte per la Ricerca sul Machine Learning

Abstract

La ricerca sull'IA autonoma ha compiuto rapidi progressi, ma l'ingegnerizzazione della ricerca di machine learning a lungo termine rimane difficile: gli agenti devono sostenere progressi coerenti attraverso la comprensione del compito, la configurazione dell'ambiente, l'implementazione, la sperimentazione e il debugging per ore o giorni. Introduciamo AiScientist, un sistema per l'ingegnerizzazione autonoma a lungo termine per la ricerca nel ML, basato su un principio semplice: prestazioni solide a lungo termine richiedono sia un'orchestrazione strutturata che una duratura continuità dello stato. A tal fine, AiScientist combina un'orchestrazione gerarchica con un'area di lavoro File-as-Bus a permessi delimitati: un Orchestratore di alto livello mantiene il controllo a livello di fase attraverso riepiloghi concisi e una mappa dell'area di lavoro, mentre agenti specializzati si ri-ancorano ripetutamente su artefatti durevoli come analisi, piani, codice ed evidenze sperimentali, piuttosto che affidarsi principalmente a passaggi di consegna conversazionali, ottenendo così un controllo "sottile" su uno stato "spesso". In due benchmark complementari, AiScientist migliora il punteggio PaperBench di 10,54 punti in media rispetto alla migliore baseline corrispondente e raggiunge l'81,82% Any Medal su MLE-Bench Lite. Studi di ablazione mostrano inoltre che il protocollo File-as-Bus è un fattore chiave per le prestazioni, riducendo PaperBench di 6,41 punti e MLE-Bench Lite di 31,82 punti quando rimosso. Questi risultati suggeriscono che l'ingegnerizzazione della ricerca di ML a lungo termine è un problema di sistemi legato al coordinamento di lavoro specializzato su uno stato di progetto durevole, piuttosto che un problema di puro ragionamento locale.

English

Autonomous AI research has advanced rapidly, but long-horizon ML research engineering remains difficult: agents must sustain coherent progress across task comprehension, environment setup, implementation, experimentation, and debugging over hours or days. We introduce AiScientist, a system for autonomous long-horizon engineering for ML research built on a simple principle: strong long-horizon performance requires both structured orchestration and durable state continuity. To this end, AiScientist combines hierarchical orchestration with a permission-scoped File-as-Bus workspace: a top-level Orchestrator maintains stage-level control through concise summaries and a workspace map, while specialized agents repeatedly re-ground on durable artifacts such as analyses, plans, code, and experimental evidence rather than relying primarily on conversational handoffs, yielding thin control over thick state. Across two complementary benchmarks, AiScientist improves PaperBench score by 10.54 points on average over the best matched baseline and achieves 81.82 Any Medal% on MLE-Bench Lite. Ablation studies further show that File-as-Bus protocol is a key driver of performance, reducing PaperBench by 6.41 points and MLE-Bench Lite by 31.82 points when removed. These results suggest that long-horizon ML research engineering is a systems problem of coordinating specialized work over durable project state, rather than a purely local reasoning problem.

Verso l'Ingegneria Autonoma a Lungo Orizzonte per la Ricerca sul Machine Learning

Toward Autonomous Long-Horizon Engineering for ML Research

Abstract

Support