AutoScientists: Selbstorganisierende Agententeams für langfristige wissenschaftliche Experimente

Zusammenfassung

Wissenschaftliche Forschung verläuft in iterativen Zyklen aus Hypothesengenerierung, Experimentdesign, Durchführung und Revision. KI-Agenten können Teile dieses Prozesses automatisieren, doch bestehende Ansätze folgen typischerweise einer einzigen Forschungsrichtung oder koordinieren sich über einen zentralen Planer mit festgelegten Zielen. Dadurch fällt es ihnen schwer, parallele Erkundungen aufrechtzuerhalten, sich an verändernde experimentelle Evidenz anzupassen oder das Wissen über gescheiterte Ansätze über langlaufende Experimente hinweg zu bewahren. Wir stellen AutoScientists vor, ein dezentrales Team von KI-Agenten für langfristige computergestützte wissenschaftliche Experimente. Die Agenten interpretieren einen gemeinsamen experimentellen Zustand, organisieren sich selbst in Teams um vielversprechende Hypothesen, bewerten Vorschläge vor dem Einsatz von experimentellen Ressourcen und teilen Erfolge sowie Misserfolge, um redundante Erkundungen zu reduzieren. Bei vergleichbaren experimentellen Budgets verbessert AutoScientists die Ergebnisse gegenüber früheren KI-Agenten in den Bereichen biomedizinisches maschinelles Lernen, Optimierung des Sprachtrainings und Vorhersage von Proteinfitness. Auf BioML-Bench, das biomedizinische Bildgebung, Protein-Engineering, Einzelzell-Omics und Wirkstoffforschung umfasst, erreicht AutoScientists einen mittleren Ranglisten-Perzentil von 74,4 % über 24 Aufgaben, eine Verbesserung um +8,33 % gegenüber dem stärksten KI-Agenten. Bei der Optimierung des GPT-Trainings erreicht AutoScientists eine Zielvalidierung von 1,9× schnelleren Bits pro Byte als Autoresearch und entdeckt weiterhin Verbesserungen ausgehend von einem Start-Champion, bei dem der Einzelagentenansatz keine findet (7 vs. 0 akzeptierte Verbesserungen). Bei der Fitnessvorhersage auf ProteinGym entdeckt AutoScientists eine Methode für die ACE2-Spike-Bindung, die die aktuelle State-of-the-Art-Modell um +12,5 % in der Spearman-Korrelation übertrifft. Ohne Modifikation auf alle 217 ProteinGym-Assays angewendet, verbessert dieselbe Methode den bisherigen Stand der Technik um +6,5 % (Spearman-Korrelation).

English

Scientific research proceeds through iterative cycles of hypothesis generation, experiment design, execution, and revision. AI agents can automate parts of this process, but existing approaches typically follow a single research trajectory or coordinate through a central planner with fixed objectives. As a result, they struggle to sustain parallel exploration, adapt as experimental evidence changes, or preserve knowledge of failed directions over long-running experiments. We introduce AutoScientists, a decentralized team of AI agents for long-running computational scientific experimentation. Agents interpret a shared experimental state, self-organize into teams around promising hypotheses, critique proposals before using experimental compute, and share successes and failures to reduce redundant exploration. Under matched experimental budgets, AutoScientists improves over prior AI agents across biomedical machine learning, language-model training optimization, and protein fitness prediction. On BioML-Bench, spanning biomedical imaging, protein engineering, single-cell omics, and drug discovery, AutoScientists achieves a mean leaderboard percentile of 74.4% across 24 tasks, improving over the strongest AI agent by +8.33%. On GPT training optimization, AutoScientists reaches a target validation bits-per-byte 1.9x faster than Autoresearch and continues discovering improvements from a starting champion where the single-agent approach finds none (7 vs. 0 accepted improvements). On ProteinGym fitness prediction, AutoScientists discovers a method for ACE2-Spike binding that improves over the current state-of-the-art model by +12.5% in Spearman correlation. Applied without modification across all 217 ProteinGym assays, the same method improves over the prior state of the art by +6.5% (Spearman correlation).