Vers une recherche autonome généraliste via le raffinement d'arbres d'hypothèses

Résumé

Le progrès scientifique repose sur une boucle répétée d'exploration, d'expérimentation et d'abstraction. Les chercheurs testent des directions candidates, interprètent les preuves et intègrent les leçons qui en découlent dans leurs tentatives ultérieures. Nous étudions comment un agent d'IA peut exécuter cette boucle de manière autonome sur de longs horizons temporels. Nous présentons Arbor, un cadre général pour la recherche autonome qui combine un coordinateur à long terme, des exécuteurs à court terme et le Raffinement d'Arbre d'Hypothèses (HTR), un arbre persistant qui relie hypothèses, artefacts, preuves et enseignements distillés à travers le temps. Le coordinateur gère la stratégie globale de recherche sur l'arbre, tandis que les exécuteurs implémentent et testent des hypothèses individuelles dans des arbres de travail isolés. Lorsque les résultats sont renvoyés, Arbor met à jour l'arbre, propage les leçons réutilisables, affine la frontière de recherche et admet les améliorations vérifiées. Cette conception transforme la recherche autonome d'une séquence de tentatives locales en un processus cumulatif où la stratégie, l'exécution et les preuves sont transmises dans le temps. Nous évaluons Arbor dans le cadre de l'Optimisation Autonome (AO), un contexte opérationnel où un agent améliore un artefact de recherche initial par expérimentation itérative sans supervision humaine à l'étape. Sur six tâches de recherche réelles en entraînement de modèles, ingénierie de harnais et synthèse de données, Arbor obtient le meilleur résultat retenu sur l'ensemble des six tâches, atteignant plus de 2,5 fois le gain retenu relatif moyen de Codex et Claude Code sous la même interface de tâche et le même budget de ressources. Sur MLE-Bench Lite, Arbor atteint 86,36 % de Toute Médaille avec GPT-5.5, le meilleur résultat de notre comparaison.

English

Scientific progress depends on a repeated loop of exploration, experimentation, and abstraction. Researchers test candidate directions, interpret the evidence, and carry the resulting lessons into later attempts. We study how an AI agent can run this loop autonomously over long horizons. We introduce Arbor, a general framework for autonomous research that combines a long-lived coordinator, short-lived executors, and Hypothesis Tree Refinement (HTR), a persistent tree that links hypotheses, artifacts, evidence, and distilled insights across time. The coordinator manages global research strategy over the tree, while executors implement and test individual hypotheses in isolated worktrees. As results return, Arbor updates the tree, propagates reusable lessons, refines the search frontier, and admits verified improvements. This design turns autonomous research from a sequence of local attempts into a cumulative process in which strategy, execution, and evidence are carried across time. We evaluate Arbor under Autonomous Optimization (AO), an operational setting where an agent improves an initial research artifact through iterative experimentation without step-level human supervision. Across six real research tasks in model training, harness engineering, and data synthesis, Arbor achieves the best held-out result on all six tasks, attaining more than 2.5x the average relative held-out gain of Codex and Claude Code under the same task interface and resource budget. On MLE-Bench Lite, Arbor reaches 86.36% Any Medal with GPT-5.5, the strongest result in our comparison.