AutoScientists: Equipes de Agentes Auto-Organizáveis para Experimentação Científica de Longa Duração

Resumo

A pesquisa científica progride por ciclos iterativos de geração de hipóteses, delineamento experimental, execução e revisão. Agentes de IA podem automatizar partes desse processo, mas as abordagens existentes geralmente seguem uma única trajetória de pesquisa ou coordenam-se por meio de um planejador central com objetivos fixos. Como resultado, elas têm dificuldade em sustentar exploração paralela, adaptar-se à medida que a evidência experimental muda ou preservar o conhecimento de direções fracassadas ao longo de experimentos de longa duração. Apresentamos o AutoScientists, uma equipe descentralizada de agentes de IA para experimentação científica computacional de longa duração. Os agentes interpretam um estado experimental compartilhado, auto-organizam-se em equipes em torno de hipóteses promissoras, criticam propostas antes de utilizar poder computacional experimental e compartilham sucessos e fracassos para reduzir a exploração redundante. Sob orçamentos experimentais equivalentes, o AutoScientists supera agentes de IA anteriores em aprendizado de máquina biomédico, otimização do treinamento de modelos de linguagem e predição de aptidão de proteínas. No BioML-Bench, que abrange imagem biomédica, engenharia de proteínas, ômica de célula única e descoberta de fármacos, o AutoScientists alcança um percentil médio no ranking de 74,4% em 24 tarefas, superando o agente de IA mais forte em +8,33%. Na otimização do treinamento do GPT, o AutoScientists atinge um alvo de bits por byte de validação 1,9x mais rápido que o Autoresearch e continua descobrindo melhorias a partir de um campeão inicial onde a abordagem de agente único não encontra nenhuma (7 vs. 0 melhorias aceitas). Na predição de aptidão do ProteinGym, o AutoScientists descobre um método para a ligação ACE2-Spike que melhora a correlação de Spearman em +12,5% em relação ao modelo de última geração atual. Aplicado sem modificação em todos os 217 ensaios do ProteinGym, o mesmo método melhora em +6,5% (correlação de Spearman) em relação ao estado da arte anterior.

English

Scientific research proceeds through iterative cycles of hypothesis generation, experiment design, execution, and revision. AI agents can automate parts of this process, but existing approaches typically follow a single research trajectory or coordinate through a central planner with fixed objectives. As a result, they struggle to sustain parallel exploration, adapt as experimental evidence changes, or preserve knowledge of failed directions over long-running experiments. We introduce AutoScientists, a decentralized team of AI agents for long-running computational scientific experimentation. Agents interpret a shared experimental state, self-organize into teams around promising hypotheses, critique proposals before using experimental compute, and share successes and failures to reduce redundant exploration. Under matched experimental budgets, AutoScientists improves over prior AI agents across biomedical machine learning, language-model training optimization, and protein fitness prediction. On BioML-Bench, spanning biomedical imaging, protein engineering, single-cell omics, and drug discovery, AutoScientists achieves a mean leaderboard percentile of 74.4% across 24 tasks, improving over the strongest AI agent by +8.33%. On GPT training optimization, AutoScientists reaches a target validation bits-per-byte 1.9x faster than Autoresearch and continues discovering improvements from a starting champion where the single-agent approach finds none (7 vs. 0 accepted improvements). On ProteinGym fitness prediction, AutoScientists discovers a method for ACE2-Spike binding that improves over the current state-of-the-art model by +12.5% in Spearman correlation. Applied without modification across all 217 ProteinGym assays, the same method improves over the prior state of the art by +6.5% (Spearman correlation).