К универсальному автономному исследованию посредством уточнения дерева гипотез

Аннотация

Научный прогресс опирается на повторяющийся цикл исследования, экспериментирования и абстрагирования. Исследователи испытывают возможные направления, интерпретируют полученные данные и переносят вынесенные уроки в последующие попытки. Мы изучаем, как агент ИИ может автономно выполнять этот цикл на длительных временных горизонтах. Мы представляем Arbor — универсальную структуру для автономного исследования, объединяющую долгоживущего координатора, краткосрочных исполнителей и устойчивое дерево, связывающее гипотезы, артефакты, свидетельства и обобщённые выводы во времени, — а также метод уточнения дерева гипотез (Hypothesis Tree Refinement, HTR). Координатор управляет глобальной исследовательской стратегией в рамках этого дерева, в то время как исполнители реализуют и проверяют отдельные гипотезы в изолированных рабочих деревьях (worktrees). По мере поступления результатов Arbor обновляет дерево, распространяет повторно применимые уроки, уточняет границы поиска и принимает подтверждённые улучшения. Такая конструкция превращает автономное исследование из последовательности локальных попыток в накопительный процесс, в котором стратегия, выполнение и свидетельства переносятся во времени. Мы оцениваем Arbor в условиях автономной оптимизации (Autonomous Optimization, AO) — операциональной среде, где агент улучшает исходный исследовательский артефакт путём итеративного экспериментирования без пошагового контроля со стороны человека. На шести реальных исследовательских задачах в области обучения моделей, разработки обвязок (harness engineering) и синтеза данных Arbor достигает наилучшего результата на отложенной выборке по всем шести задачам, обеспечивая более чем 2,5-кратный средний относительный прирост на отложенной выборке по сравнению с Codex и Claude Code при том же интерфейсе задач и бюджете ресурсов. На MLE-Bench Lite Arbor достигает 86,36% Any Medal с GPT-5.5 — это самый высокий результат в нашем сравнении.

English

Scientific progress depends on a repeated loop of exploration, experimentation, and abstraction. Researchers test candidate directions, interpret the evidence, and carry the resulting lessons into later attempts. We study how an AI agent can run this loop autonomously over long horizons. We introduce Arbor, a general framework for autonomous research that combines a long-lived coordinator, short-lived executors, and Hypothesis Tree Refinement (HTR), a persistent tree that links hypotheses, artifacts, evidence, and distilled insights across time. The coordinator manages global research strategy over the tree, while executors implement and test individual hypotheses in isolated worktrees. As results return, Arbor updates the tree, propagates reusable lessons, refines the search frontier, and admits verified improvements. This design turns autonomous research from a sequence of local attempts into a cumulative process in which strategy, execution, and evidence are carried across time. We evaluate Arbor under Autonomous Optimization (AO), an operational setting where an agent improves an initial research artifact through iterative experimentation without step-level human supervision. Across six real research tasks in model training, harness engineering, and data synthesis, Arbor achieves the best held-out result on all six tasks, attaining more than 2.5x the average relative held-out gain of Codex and Claude Code under the same task interface and resource budget. On MLE-Bench Lite, Arbor reaches 86.36% Any Medal with GPT-5.5, the strongest result in our comparison.