Rumo à Pesquisa Autônoma Generalista via Refinamento de Árvore de Hipóteses

Resumo

O progresso científico depende de um ciclo repetido de exploração, experimentação e abstração. Pesquisadores testam direções candidatas, interpretam as evidências e transportam as lições resultantes para tentativas posteriores. Estudamos como um agente de IA pode executar esse ciclo de forma autônoma em horizontes longos. Apresentamos o Arbor, um framework geral para pesquisa autônoma que combina um coordenador de longa duração, executores de curta duração e o Refinamento de Árvore de Hipóteses (HTR, do inglês Hypothesis Tree Refinement), uma árvore persistente que vincula hipóteses, artefatos, evidências e insights destilados ao longo do tempo. O coordenador gerencia a estratégia global de pesquisa na árvore, enquanto os executores implementam e testam hipóteses individuais em árvores de trabalho isoladas. À medida que os resultados retornam, o Arbor atualiza a árvore, propaga lições reutilizáveis, refina a fronteira de busca e admite melhorias verificadas. Esse design transforma a pesquisa autônoma de uma sequência de tentativas locais em um processo cumulativo no qual estratégia, execução e evidências são transportadas ao longo do tempo. Avaliamos o Arbor sob a Otimização Autônoma (AO, do inglês Autonomous Optimization), um cenário operacional onde um agente melhora um artefato de pesquisa inicial por meio de experimentação iterativa sem supervisão humana em nível de etapa. Em seis tarefas reais de pesquisa em treinamento de modelos, engenharia de harness e síntese de dados, o Arbor alcança o melhor resultado em dados retidos (held-out) em todas as seis tarefas, obtendo mais de 2,5 vezes o ganho relativo médio em dados retidos do Codex e do Claude Code sob a mesma interface de tarefa e orçamento de recursos. No MLE-Bench Lite, o Arbor atinge 86,36% de Any Medal com GPT-5.5, o resultado mais forte em nossa comparação.

English

Scientific progress depends on a repeated loop of exploration, experimentation, and abstraction. Researchers test candidate directions, interpret the evidence, and carry the resulting lessons into later attempts. We study how an AI agent can run this loop autonomously over long horizons. We introduce Arbor, a general framework for autonomous research that combines a long-lived coordinator, short-lived executors, and Hypothesis Tree Refinement (HTR), a persistent tree that links hypotheses, artifacts, evidence, and distilled insights across time. The coordinator manages global research strategy over the tree, while executors implement and test individual hypotheses in isolated worktrees. As results return, Arbor updates the tree, propagates reusable lessons, refines the search frontier, and admits verified improvements. This design turns autonomous research from a sequence of local attempts into a cumulative process in which strategy, execution, and evidence are carried across time. We evaluate Arbor under Autonomous Optimization (AO), an operational setting where an agent improves an initial research artifact through iterative experimentation without step-level human supervision. Across six real research tasks in model training, harness engineering, and data synthesis, Arbor achieves the best held-out result on all six tasks, attaining more than 2.5x the average relative held-out gain of Codex and Claude Code under the same task interface and resource budget. On MLE-Bench Lite, Arbor reaches 86.36% Any Medal with GPT-5.5, the strongest result in our comparison.