Naar Generalistisch Autonoom Onderzoek via Hypotheseboomverfijning

Samenvatting

Wetenschappelijke vooruitgang is afhankelijk van een herhaalde cyclus van exploratie, experimentatie en abstractie. Onderzoekers testen kandidaatrichtingen, interpreteren het bewijsmateriaal en nemen de resulterende lessen mee naar latere pogingen. We bestuderen hoe een AI-agent deze cyclus autonoom kan uitvoeren over lange tijdsperioden. We introduceren Arbor, een algemeen raamwerk voor autonoom onderzoek dat een langlevende coördinator, kortlevende uitvoerders en Hypothesis Tree Refinement (HTR) combineert: een persistente boom die hypothesen, artefacten, bewijs en gedistilleerde inzichten door de tijd heen verbindt. De coördinator beheert de globale onderzoeksstrategie over de boom, terwijl uitvoerders individuele hypothesen implementeren en testen in geïsoleerde werkbomen. Wanneer resultaten terugkomen, werkt Arbor de boom bij, verspreidt herbruikbare lessen, verfijnt de zoekgrens en neemt geverifieerde verbeteringen op. Dit ontwerp verandert autonoom onderzoek van een reeks lokale pogingen in een cumulatief proces waarin strategie, uitvoering en bewijs door de tijd heen worden meegenomen. We evalueren Arbor onder Autonomous Optimization (AO), een operationele setting waarin een agent een initieel onderzoeksartefact verbetert door iteratief experimenteren zonder stapsgewijze menselijke supervisie. Over zes echte onderzoekstaken op het gebied van modeltraining, harness engineering en datasynthese behaalt Arbor het beste held-out resultaat op alle zes taken, met meer dan 2,5 keer de gemiddelde relatieve held-out winst van Codex en Claude Code onder dezelfde taakinterface en middelenbudget. Op MLE-Bench Lite bereikt Arbor 86,36% Any Medal met GPT-5.5, het sterkste resultaat in onze vergelijking.

English

Scientific progress depends on a repeated loop of exploration, experimentation, and abstraction. Researchers test candidate directions, interpret the evidence, and carry the resulting lessons into later attempts. We study how an AI agent can run this loop autonomously over long horizons. We introduce Arbor, a general framework for autonomous research that combines a long-lived coordinator, short-lived executors, and Hypothesis Tree Refinement (HTR), a persistent tree that links hypotheses, artifacts, evidence, and distilled insights across time. The coordinator manages global research strategy over the tree, while executors implement and test individual hypotheses in isolated worktrees. As results return, Arbor updates the tree, propagates reusable lessons, refines the search frontier, and admits verified improvements. This design turns autonomous research from a sequence of local attempts into a cumulative process in which strategy, execution, and evidence are carried across time. We evaluate Arbor under Autonomous Optimization (AO), an operational setting where an agent improves an initial research artifact through iterative experimentation without step-level human supervision. Across six real research tasks in model training, harness engineering, and data synthesis, Arbor achieves the best held-out result on all six tasks, attaining more than 2.5x the average relative held-out gain of Codex and Claude Code under the same task interface and resource budget. On MLE-Bench Lite, Arbor reaches 86.36% Any Medal with GPT-5.5, the strongest result in our comparison.