Hacia la Investigación Autónoma Generalista mediante el Refinamiento de Árboles de Hipótesis

Resumen

El progreso científico depende de un ciclo repetido de exploración, experimentación y abstracción. Los investigadores prueban direcciones candidatas, interpretan la evidencia e incorporan las lecciones resultantes en intentos posteriores. Estudiamos cómo un agente de IA puede ejecutar este ciclo de forma autónoma durante horizontes temporales prolongados. Presentamos Arbor, un marco general para la investigación autónoma que combina un coordinador de larga duración, ejecutores de corta duración y el Refinamiento del Árbol de Hipótesis (RAH), un árbol persistente que vincula hipótesis, artefactos, evidencia e ideas destiladas a lo largo del tiempo. El coordinador gestiona la estrategia global de investigación sobre el árbol, mientras que los ejecutores implementan y prueban hipótesis individuales en árboles de trabajo aislados. A medida que los resultados regresan, Arbor actualiza el árbol, propaga lecciones reutilizables, refina la frontera de búsqueda y admite mejoras verificadas. Este diseño transforma la investigación autónoma de una secuencia de intentos locales en un proceso acumulativo donde la estrategia, la ejecución y la evidencia se transmiten a través del tiempo. Evaluamos Arbor bajo Optimización Autónoma (OA), un entorno operativo en el que un agente mejora un artefacto de investigación inicial mediante experimentación iterativa sin supervisión humana a nivel de paso. En seis tareas reales de investigación en entrenamiento de modelos, ingeniería de arneses y síntesis de datos, Arbor logra el mejor resultado fuera de la muestra en las seis tareas, alcanzando más de 2,5 veces la ganancia relativa promedio fuera de la muestra de Codex y Claude Code bajo la misma interfaz de tarea y presupuesto de recursos. En MLE-Bench Lite, Arbor alcanza un 86,36% de Medalla General con GPT-5.5, el resultado más fuerte en nuestra comparación.

English

Scientific progress depends on a repeated loop of exploration, experimentation, and abstraction. Researchers test candidate directions, interpret the evidence, and carry the resulting lessons into later attempts. We study how an AI agent can run this loop autonomously over long horizons. We introduce Arbor, a general framework for autonomous research that combines a long-lived coordinator, short-lived executors, and Hypothesis Tree Refinement (HTR), a persistent tree that links hypotheses, artifacts, evidence, and distilled insights across time. The coordinator manages global research strategy over the tree, while executors implement and test individual hypotheses in isolated worktrees. As results return, Arbor updates the tree, propagates reusable lessons, refines the search frontier, and admits verified improvements. This design turns autonomous research from a sequence of local attempts into a cumulative process in which strategy, execution, and evidence are carried across time. We evaluate Arbor under Autonomous Optimization (AO), an operational setting where an agent improves an initial research artifact through iterative experimentation without step-level human supervision. Across six real research tasks in model training, harness engineering, and data synthesis, Arbor achieves the best held-out result on all six tasks, attaining more than 2.5x the average relative held-out gain of Codex and Claude Code under the same task interface and resource budget. On MLE-Bench Lite, Arbor reaches 86.36% Any Medal with GPT-5.5, the strongest result in our comparison.