AutoScientists: Equipos de Agentes Auto-Organizativos para Experimentación Científica de Larga Duración

Resumen

La investigación científica avanza mediante ciclos iterativos de generación de hipótesis, diseño experimental, ejecución y revisión. Los agentes de IA pueden automatizar partes de este proceso, pero los enfoques existentes suelen seguir una única trayectoria de investigación o coordinar a través de un planificador central con objetivos fijos. Como resultado, tienen dificultades para mantener una exploración paralela, adaptarse a medida que cambia la evidencia experimental o preservar el conocimiento de las vías fallidas durante experimentos de larga duración. Presentamos AutoScientists, un equipo descentralizado de agentes de IA para la experimentación científica computacional de larga duración. Los agentes interpretan un estado experimental compartido, se autoorganizan en equipos en torno a hipótesis prometedoras, critican propuestas antes de utilizar recursos computacionales experimentales y comparten éxitos y fracasos para reducir la exploración redundante. Bajo presupuestos experimentales equivalentes, AutoScientists supera a los agentes de IA previos en aprendizaje automático biomédico, optimización del entrenamiento de modelos de lenguaje y predicción de aptitud proteica. En BioML-Bench, que abarca imágenes biomédicas, ingeniería de proteínas, ómica unicelular y descubrimiento de fármacos, AutoScientists alcanza un percentil medio en el ranking del 74.4 % en 24 tareas, superando al agente de IA más fuerte en un +8.33 %. En la optimización del entrenamiento de GPT, AutoScientists alcanza un valor objetivo de bits por byte en validación 1.9 veces más rápido que Autoresearch y continúa descubriendo mejoras a partir de un campeón inicial donde el enfoque de agente único no encuentra ninguna (7 mejoras aceptadas frente a 0). En la predicción de aptitud de ProteinGym, AutoScientists descubre un método para la unión ACE2-Spike que mejora la correlación de Spearman en un +12.5 % respecto al modelo de última generación actual. Aplicado sin modificaciones en los 217 ensayos de ProteinGym, el mismo método mejora en un +6.5 % respecto al estado del arte anterior (correlación de Spearman).

English

Scientific research proceeds through iterative cycles of hypothesis generation, experiment design, execution, and revision. AI agents can automate parts of this process, but existing approaches typically follow a single research trajectory or coordinate through a central planner with fixed objectives. As a result, they struggle to sustain parallel exploration, adapt as experimental evidence changes, or preserve knowledge of failed directions over long-running experiments. We introduce AutoScientists, a decentralized team of AI agents for long-running computational scientific experimentation. Agents interpret a shared experimental state, self-organize into teams around promising hypotheses, critique proposals before using experimental compute, and share successes and failures to reduce redundant exploration. Under matched experimental budgets, AutoScientists improves over prior AI agents across biomedical machine learning, language-model training optimization, and protein fitness prediction. On BioML-Bench, spanning biomedical imaging, protein engineering, single-cell omics, and drug discovery, AutoScientists achieves a mean leaderboard percentile of 74.4% across 24 tasks, improving over the strongest AI agent by +8.33%. On GPT training optimization, AutoScientists reaches a target validation bits-per-byte 1.9x faster than Autoresearch and continues discovering improvements from a starting champion where the single-agent approach finds none (7 vs. 0 accepted improvements). On ProteinGym fitness prediction, AutoScientists discovers a method for ACE2-Spike binding that improves over the current state-of-the-art model by +12.5% in Spearman correlation. Applied without modification across all 217 ProteinGym assays, the same method improves over the prior state of the art by +6.5% (Spearman correlation).