Auf dem Weg zu autonomen langfristigen Engineering für die ML-Forschung

Zusammenfassung

Die autonome KI-Forschung hat rasante Fortschritte gemacht, doch das Engineering von langfristiger ML-Forschung bleibt schwierig: Agenten müssen über Stunden oder Tage hinweg kohärente Fortschritte in den Bereichen Aufgabenverständnis, Umgebungseinrichtung, Implementierung, Experimentierung und Fehlerbehebung aufrechterhalten. Wir stellen AiScientist vor, ein System für autonomes Engineering mit langem Planungshorizont in der ML-Forschung, das auf einem einfachen Prinzip basiert: Starke Leistung über lange Zeiträume erfordert sowohl strukturierte Orchestrierung als auch dauerhafte Zustandskontinuität. Zu diesem Zweck kombiniert AiScientist hierarchische Orchestrierung mit einem berechtigungsbeschränkten File-as-Bus-Arbeitsbereich: Ein übergeordneter Orchestrator behält die Kontrolle auf Prozessschritt-Ebene durch prägnante Zusammenfassungen und eine Arbeitsbereichsabbildung, während spezialisierte Agenten sich wiederholt auf dauerhafte Artefakte wie Analysen, Pläne, Code und experimentelle Belege stützen, anstatt sich primär auf konversationelle Übergaben zu verlassen. Dies führt zu einer schlanken Steuerung über einen umfangreichen Zustand. In zwei komplementären Benchmarks verbessert AiScientist den PaperBench-Score im Durchschnitt um 10,54 Punkte gegenüber der besten vergleichbaren Baseline und erreicht 81,82 % "Any Medal" auf MLE-Bench Lite. Ablationsstudien zeigen weiterhin, dass das File-as-Bus-Protokoll ein entscheidender Leistungstreiber ist – bei dessen Entfernung sinkt PaperBench um 6,41 Punkte und MLE-Bench Lite um 31,82 Punkte. Diese Ergebnisse deuten darauf hin, dass langfristiges ML-Forschungs-Engineering ein Systemproblem der Koordination spezialisierter Arbeit über dauerhaften Projektzustand darstellt und nicht ein rein lokales Reasoning-Problem ist.

English

Autonomous AI research has advanced rapidly, but long-horizon ML research engineering remains difficult: agents must sustain coherent progress across task comprehension, environment setup, implementation, experimentation, and debugging over hours or days. We introduce AiScientist, a system for autonomous long-horizon engineering for ML research built on a simple principle: strong long-horizon performance requires both structured orchestration and durable state continuity. To this end, AiScientist combines hierarchical orchestration with a permission-scoped File-as-Bus workspace: a top-level Orchestrator maintains stage-level control through concise summaries and a workspace map, while specialized agents repeatedly re-ground on durable artifacts such as analyses, plans, code, and experimental evidence rather than relying primarily on conversational handoffs, yielding thin control over thick state. Across two complementary benchmarks, AiScientist improves PaperBench score by 10.54 points on average over the best matched baseline and achieves 81.82 Any Medal% on MLE-Bench Lite. Ablation studies further show that File-as-Bus protocol is a key driver of performance, reducing PaperBench by 6.41 points and MLE-Bench Lite by 31.82 points when removed. These results suggest that long-horizon ML research engineering is a systems problem of coordinating specialized work over durable project state, rather than a purely local reasoning problem.

Auf dem Weg zu autonomen langfristigen Engineering für die ML-Forschung

Toward Autonomous Long-Horizon Engineering for ML Research

Zusammenfassung

Support