Автоучёные: самоорганизующиеся команды агентов для долговременных научных экспериментов

Аннотация

Научные исследования осуществляются через итерационные циклы генерации гипотез, планирования экспериментов, их выполнения и последующей корректировки. Агенты ИИ могут автоматизировать части этого процесса, однако существующие подходы, как правило, следуют одному исследовательскому направлению или координируются через централизованный планировщик с фиксированными целями. В результате они с трудом поддерживают параллельное исследование, адаптируются к изменениям экспериментальных данных или сохраняют знания о неудачных направлениях в ходе длительных экспериментов. Мы представляем AutoScientists — децентрализованную команду агентов ИИ для долгосрочных вычислительных научных экспериментов. Агенты интерпретируют общее экспериментальное состояние, самоорганизуются в команды вокруг перспективных гипотез, критикуют предложения до использования вычислительных ресурсов эксперимента, а также делятся успехами и неудачами для сокращения избыточных исследований. При сопоставимых экспериментальных бюджетах AutoScientists превосходит предыдущих агентов ИИ в области биомедицинского машинного обучения, оптимизации обучения языковых моделей и предсказания пригодности белков. На платформе BioML-Bench, охватывающей биомедицинскую визуализацию, белковую инженерию, одноклеточную омику и открытие лекарств, AutoScientists достигает среднего перцентиля лидерборда 74,4% по 24 задачам, что на 8,33% лучше самого сильного агента ИИ. При оптимизации обучения GPT AutoScientists достигает целевого показателя битов на байт на валидационном наборе в 1,9 раза быстрее, чем Autoresearch, и продолжает находить улучшения, начиная с исходного «чемпиона», где одноагентный подход не обнаруживает ни одного (7 принятых улучшений против 0). При предсказании пригодности белков на ProteinGym AutoScientists находит метод связывания ACE2-спайка, который улучшает текущую модель наилучшего уровня на 12,5% по корреляции Спирмена. При применении без модификации ко всем 217 анализам ProteinGym тот же метод улучшает предыдущий наилучший результат на 6,5% (корреляция Спирмена).

English

Scientific research proceeds through iterative cycles of hypothesis generation, experiment design, execution, and revision. AI agents can automate parts of this process, but existing approaches typically follow a single research trajectory or coordinate through a central planner with fixed objectives. As a result, they struggle to sustain parallel exploration, adapt as experimental evidence changes, or preserve knowledge of failed directions over long-running experiments. We introduce AutoScientists, a decentralized team of AI agents for long-running computational scientific experimentation. Agents interpret a shared experimental state, self-organize into teams around promising hypotheses, critique proposals before using experimental compute, and share successes and failures to reduce redundant exploration. Under matched experimental budgets, AutoScientists improves over prior AI agents across biomedical machine learning, language-model training optimization, and protein fitness prediction. On BioML-Bench, spanning biomedical imaging, protein engineering, single-cell omics, and drug discovery, AutoScientists achieves a mean leaderboard percentile of 74.4% across 24 tasks, improving over the strongest AI agent by +8.33%. On GPT training optimization, AutoScientists reaches a target validation bits-per-byte 1.9x faster than Autoresearch and continues discovering improvements from a starting champion where the single-agent approach finds none (7 vs. 0 accepted improvements). On ProteinGym fitness prediction, AutoScientists discovers a method for ACE2-Spike binding that improves over the current state-of-the-art model by +12.5% in Spearman correlation. Applied without modification across all 217 ProteinGym assays, the same method improves over the prior state of the art by +6.5% (Spearman correlation).