AutoScientists: Zelforganiserende Agententeams voor Langlopende Wetenschappelijke Experimenten

Samenvatting

Wetenschappelijk onderzoek verloopt via iteratieve cycli van hypothesevorming, experimentontwerp, uitvoering en herziening. AI-agenten kunnen delen van dit proces automatiseren, maar bestaande benaderingen volgen doorgaans één onderzoeksrichting of coördineren via een centrale planner met vaste doelstellingen. Hierdoor hebben ze moeite om parallelle verkenning te ondersteunen, zich aan te passen naarmate experimenteel bewijs verandert, of kennis over mislukte richtingen te bewaren gedurende langlopende experimenten. We introduceren AutoScientists, een gedecentraliseerd team van AI-agenten voor langdurige computationele wetenschappelijke experimenten. Agenten interpreteren een gedeelde experimentele toestand, organiseren zichzelf in teams rond veelbelovende hypothesen, bekritiseren voorstellen voordat ze experimentele rekenkracht inzetten, en delen successen en mislukkingen om overbodige verkenning te verminderen. Bij gelijke experimentele budgetten presteert AutoScientists beter dan eerdere AI-agenten op het gebied van biomedisch machinaal leren, optimalisatie van taalmodeltraining en voorspelling van eiwitfitness. Op BioML-Bench, dat biomedische beeldvorming, eiwittechnologie, single-cell omica en geneesmiddelenontdekking omvat, behaalt AutoScientists een gemiddelde leaderboardpercentiel van 74,4% over 24 taken, een verbetering van +8,33% ten opzichte van de sterkste AI-agent. Bij optimalisatie van GPT-training bereikt AutoScientists een beoogde validatie-bits-per-byte 1,9 keer sneller dan Autoresearch en blijft het verbeteringen ontdekken vanuit een beginnende kampioen waar de enkele-agentbenadering geen vindt (7 versus 0 geaccepteerde verbeteringen). Bij fitnessvoorspelling op ProteinGym ontdekt AutoScientists een methode voor ACE2-Spike-binding die de huidige state-of-the-art model met +12,5% in Spearman-correlatie verbetert. Zonder aanpassing toegepast op alle 217 ProteinGym-assays, verbetert dezelfde methode de vorige state of the art met +6,5% (Spearman-correlatie).

English

Scientific research proceeds through iterative cycles of hypothesis generation, experiment design, execution, and revision. AI agents can automate parts of this process, but existing approaches typically follow a single research trajectory or coordinate through a central planner with fixed objectives. As a result, they struggle to sustain parallel exploration, adapt as experimental evidence changes, or preserve knowledge of failed directions over long-running experiments. We introduce AutoScientists, a decentralized team of AI agents for long-running computational scientific experimentation. Agents interpret a shared experimental state, self-organize into teams around promising hypotheses, critique proposals before using experimental compute, and share successes and failures to reduce redundant exploration. Under matched experimental budgets, AutoScientists improves over prior AI agents across biomedical machine learning, language-model training optimization, and protein fitness prediction. On BioML-Bench, spanning biomedical imaging, protein engineering, single-cell omics, and drug discovery, AutoScientists achieves a mean leaderboard percentile of 74.4% across 24 tasks, improving over the strongest AI agent by +8.33%. On GPT training optimization, AutoScientists reaches a target validation bits-per-byte 1.9x faster than Autoresearch and continues discovering improvements from a starting champion where the single-agent approach finds none (7 vs. 0 accepted improvements). On ProteinGym fitness prediction, AutoScientists discovers a method for ACE2-Spike binding that improves over the current state-of-the-art model by +12.5% in Spearman correlation. Applied without modification across all 217 ProteinGym assays, the same method improves over the prior state of the art by +6.5% (Spearman correlation).