EvoScientist: Auf dem Weg zu Multi-Agenten-Evolvierenden KI-Wissenschaftlern für End-to-End-Wissenschaftliche Entdeckung
EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery
March 9, 2026
Autoren: Yougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan
cs.AI
Zusammenfassung
Die zunehmende Verbreitung von Large Language Models (LLMs) ermöglicht es KI-Wissenschaftlern, komplexe end-to-end wissenschaftliche Entdeckungsaufgaben durchzuführen, die die Koordination spezialisierter Rollen erfordern, einschließlich Ideengenerierung und experimenteller Durchführung. Allerdings basieren die meisten modernsten KI-Wissenschaftler-Systeme auf statischen, handgestalteten Pipelines und scheitern daran, sich auf Basis akkumulierter Interaktionsverläufe anzupassen. Infolgedessen übersehen diese Systeme vielversprechende Forschungsrichtungen, wiederholen fehlgeschlagene Experimente und verfolgen unbrauchbare Ideen. Um dies zu adressieren, führen wir EvoScientist ein, einen sich evolvierenden Multi-Agenten-KI-Wissenschaftler-Rahmen, der Forschungsstrategien durch persistente Speicherung und Selbstevolution kontinuierlich verbessert. EvoScientist umfasst drei spezialisierte Agenten: einen Forschungsagenten (RA) zur Generierung wissenschaftlicher Ideen, einen Ingenieuragenten (EA) zur Experimentimplementierung und -durchführung sowie einen Evolutionsmanager-Agenten (EMA), der Erkenntnisse aus vorherigen Interaktionen in wiederverwendbares Wissen destilliert. EvoScientist verfügt über zwei persistente Speichermodule: (i) einen Ideenspeicher, der machbare Forschungsrichtungen aus den bestbewerteten Ideen zusammenfasst und gleichzeitig zuvor nicht erfolgreiche Richtungen dokumentiert; und (ii) einen Experimentierspeicher, der effektive Datenverarbeitungs- und Modelltrainingsstrategien erfasst, die aus Code-Suchverläufen und besten Implementierungen abgeleitet werden. Diese Module ermöglichen es dem RA und EA, auf relevante vorherige Strategien zuzugreifen, wodurch sich die Ideenqualität und Code-Ausführungsraten im Laufe der Zeit verbessern. Experimente zeigen, dass EvoScientist 7 quelloffene und kommerzielle state-of-the-art Systeme in der wissenschaftlichen Ideengenerierung übertrifft und dabei höhere Neuartigkeit, Machbarkeit, Relevanz und Klarheit durch automatische und menschliche Bewertung erreicht. EvoScientist verbessert zudem die Erfolgsraten der Code-Ausführung durch Multi-Agenten-Evolution erheblich und demonstriert so die Wirksamkeit persistenten Speichers für end-to-end wissenschaftliche Entdeckungen.
English
The increasing adoption of Large Language Models (LLMs) has enabled AI scientists to perform complex end-to-end scientific discovery tasks requiring coordination of specialized roles, including idea generation and experimental execution. However, most state-of-the-art AI scientist systems rely on static, hand-designed pipelines and fail to adapt based on accumulated interaction histories. As a result, these systems overlook promising research directions, repeat failed experiments, and pursue infeasible ideas. To address this, we introduce EvoScientist, an evolving multi-agent AI scientist framework that continuously improves research strategies through persistent memory and self-evolution. EvoScientist comprises three specialized agents: a Researcher Agent (RA) for scientific idea generation, an Engineer Agent (EA) for experiment implementation and execution, and an Evolution Manager Agent (EMA) that distills insights from prior interactions into reusable knowledge. EvoScientist contains two persistent memory modules: (i) an ideation memory, which summarizes feasible research directions from top-ranked ideas while recording previously unsuccessful directions; and (ii) an experimentation memory, which captures effective data processing and model training strategies derived from code search trajectories and best-performing implementations. These modules enable the RA and EA to retrieve relevant prior strategies, improving idea quality and code execution success rates over time. Experiments show that EvoScientist outperforms 7 open-source and commercial state-of-the-art systems in scientific idea generation, achieving higher novelty, feasibility, relevance, and clarity via automatic and human evaluation. EvoScientist also substantially improves code execution success rates through multi-agent evolution, demonstrating persistent memory's effectiveness for end-to-end scientific discovery.