AutoScientists : équipes d'agents auto-organisées pour l'expérimentation scientifique de longue durée

Résumé

La recherche scientifique progresse par cycles itératifs de génération d'hypothèses, de conception expérimentale, d'exécution et de révision. Les agents d'IA peuvent automatiser certaines parties de ce processus, mais les approches existantes suivent généralement une seule trajectoire de recherche ou se coordonnent via un planificateur central aux objectifs fixes. Par conséquent, elles peinent à soutenir une exploration parallèle, à s'adapter aux changements des preuves expérimentales ou à préserver les connaissances des voies infructueuses lors d'expériences de longue durée. Nous présentons AutoScientists, une équipe décentralisée d'agents d'IA pour l'expérimentation scientifique computationnelle de longue durée. Les agents interprètent un état expérimental partagé, s'auto-organisent en équipes autour d'hypothèses prometteuses, critiquent les propositions avant d'utiliser les ressources de calcul expérimental, et partagent les succès comme les échecs afin de réduire l'exploration redondante. Avec des budgets expérimentaux appariés, AutoScientists surpasse les agents d'IA antérieurs dans l'apprentissage automatique biomédical, l'optimisation de l'entraînement de modèles de langage et la prédiction de l'aptitude protéique. Sur BioML-Bench, couvrant l'imagerie biomédicale, l'ingénierie des protéines, l'omique unicellulaire et la découverte de médicaments, AutoScientists atteint un percentile moyen de 74,4 % sur 24 tâches, améliorant de +8,33 % le meilleur agent d'IA existant. En optimisation de l'entraînement de GPT, AutoScientists atteint un nombre de bits par octet de validation cible 1,9 fois plus rapidement qu'Autoresearch et continue de découvrir des améliorations à partir d'un champion initial là où l'approche mono-agent n'en trouve aucune (7 améliorations acceptées contre 0). En prédiction de l'aptitude protéique sur ProteinGym, AutoScientists découvre une méthode pour la liaison ACE2-Spike qui améliore de +12,5 % (corrélation de Spearman) le modèle actuel de l'état de l'art. Appliquée sans modification à l'ensemble des 217 tests de ProteinGym, cette même méthode améliore de +6,5 % (corrélation de Spearman) l'état de l'art antérieur.

English

Scientific research proceeds through iterative cycles of hypothesis generation, experiment design, execution, and revision. AI agents can automate parts of this process, but existing approaches typically follow a single research trajectory or coordinate through a central planner with fixed objectives. As a result, they struggle to sustain parallel exploration, adapt as experimental evidence changes, or preserve knowledge of failed directions over long-running experiments. We introduce AutoScientists, a decentralized team of AI agents for long-running computational scientific experimentation. Agents interpret a shared experimental state, self-organize into teams around promising hypotheses, critique proposals before using experimental compute, and share successes and failures to reduce redundant exploration. Under matched experimental budgets, AutoScientists improves over prior AI agents across biomedical machine learning, language-model training optimization, and protein fitness prediction. On BioML-Bench, spanning biomedical imaging, protein engineering, single-cell omics, and drug discovery, AutoScientists achieves a mean leaderboard percentile of 74.4% across 24 tasks, improving over the strongest AI agent by +8.33%. On GPT training optimization, AutoScientists reaches a target validation bits-per-byte 1.9x faster than Autoresearch and continues discovering improvements from a starting champion where the single-agent approach finds none (7 vs. 0 accepted improvements). On ProteinGym fitness prediction, AutoScientists discovers a method for ACE2-Spike binding that improves over the current state-of-the-art model by +12.5% in Spearman correlation. Applied without modification across all 217 ProteinGym assays, the same method improves over the prior state of the art by +6.5% (Spearman correlation).