Zu generalistischer autonomer Forschung durch Hypothesenbaumverfeinerung

Zusammenfassung

Der wissenschaftliche Fortschritt hängt von einer wiederholten Schleife aus Exploration, Experimentation und Abstraktion ab. Forschende testen mögliche Richtungen, interpretieren die Belege und tragen die gewonnenen Erkenntnisse in spätere Versuche hinein. Wir untersuchen, wie ein KI-Agent diese Schleife über lange Zeiträume hinweg autonom durchlaufen kann. Wir stellen Arbor vor, ein allgemeines Framework für autonome Forschung, das einen langlebigen Koordinator, kurzlebige Ausführer und die Hypothesenbaumverfeinerung (Hypothesis Tree Refinement, HTR) kombiniert – einen persistenten Baum, der Hypothesen, Artefakte, Belege und destillierte Erkenntnisse über die Zeit hinweg verknüpft. Der Koordinator steuert die globale Forschungsstrategie über den Baum, während Ausführer einzelne Hypothesen in isolierten Arbeitsbäumen umsetzen und testen. Sobald Ergebnisse zurückkommen, aktualisiert Arbor den Baum, gibt wiederverwendbare Erkenntnisse weiter, verfeinert die Suchfront und nimmt bestätigte Verbesserungen auf. Dieses Design verwandelt autonome Forschung von einer Abfolge lokaler Versuche in einen kumulativen Prozess, in dem Strategie, Durchführung und Belege über die Zeit hinweg weitergetragen werden. Wir evaluieren Arbor unter Autonomer Optimierung (Autonomous Optimization, AO), einem operationellen Rahmen, in dem ein Agent ein anfängliches Forschungsartefakt durch iterative Experimentation ohne schrittweise menschliche Aufsicht verbessert. In sechs realen Forschungsaufgaben aus den Bereichen Modelltraining, Harness-Engineering und Datensynthese erzielt Arbor das beste zurückgehaltene Ergebnis in allen sechs Aufgaben und erreicht dabei mehr als das 2,5-fache des durchschnittlichen relativen Gewinns auf den zurückgehaltenen Daten von Codex und Claude Code bei gleicher Aufgabenschnittstelle und gleichem Ressourcenbudget. Auf MLE-Bench Lite erreicht Arbor 86,36 % Any Medal mit GPT-5.5, dem stärksten Ergebnis in unserem Vergleich.

English

Scientific progress depends on a repeated loop of exploration, experimentation, and abstraction. Researchers test candidate directions, interpret the evidence, and carry the resulting lessons into later attempts. We study how an AI agent can run this loop autonomously over long horizons. We introduce Arbor, a general framework for autonomous research that combines a long-lived coordinator, short-lived executors, and Hypothesis Tree Refinement (HTR), a persistent tree that links hypotheses, artifacts, evidence, and distilled insights across time. The coordinator manages global research strategy over the tree, while executors implement and test individual hypotheses in isolated worktrees. As results return, Arbor updates the tree, propagates reusable lessons, refines the search frontier, and admits verified improvements. This design turns autonomous research from a sequence of local attempts into a cumulative process in which strategy, execution, and evidence are carried across time. We evaluate Arbor under Autonomous Optimization (AO), an operational setting where an agent improves an initial research artifact through iterative experimentation without step-level human supervision. Across six real research tasks in model training, harness engineering, and data synthesis, Arbor achieves the best held-out result on all six tasks, attaining more than 2.5x the average relative held-out gain of Codex and Claude Code under the same task interface and resource budget. On MLE-Bench Lite, Arbor reaches 86.36% Any Medal with GPT-5.5, the strongest result in our comparison.