EvoScientist: Rumo a Cientistas de IA Evolutivos Multiagentes para a Descoberta Científica de Ponta a Ponta

Resumo

A crescente adoção de Modelos de Linguagem de Grande Porte (LLMs) tem permitido que cientistas de IA realizem tarefas complexas de descoberta científica de ponta a ponta, que exigem a coordenação de funções especializadas, incluindo geração de ideias e execução experimental. No entanto, a maioria dos sistemas state-of-the-art de cientistas de IA depende de pipelines estáticos e projetados manualmente, falhando em se adaptar com base em históricos de interação acumulados. Como resultado, esses sistemas negligenciam direções de pesquisa promissoras, repetem experimentos fracassados e perseguem ideias inviáveis. Para resolver isso, apresentamos o EvoScientist, uma estrutura evolutiva de cientista de IA multiagente que melhora continuamente as estratégias de pesquisa por meio de memória persistente e auto-evolução. O EvoScientist compreende três agentes especializados: um Agente Pesquisador (RA) para geração de ideias científicas, um Agente Engenheiro (EA) para implementação e execução de experimentos, e um Agente Gestor de Evolução (EMA) que destila insights de interações anteriores em conhecimento reutilizável. O EvoScientist contém dois módulos de memória persistente: (i) uma memória de ideação, que resume direções de pesquisa viáveis a partir das ideias mais bem classificadas, registrando ao mesmo tempo direções previamente mal-sucedidas; e (ii) uma memória de experimentação, que captura estratégias eficazes de processamento de dados e treinamento de modelos derivadas de trajetórias de busca de código e implementações de melhor desempenho. Esses módulos permitem que o RA e o EA recuperem estratégias prévias relevantes, melhorando a qualidade das ideias e as taxas de sucesso na execução de código ao longo do tempo. Experimentos mostram que o EvoScientist supera 7 sistemas state-of-the-art de código aberto e comerciais na geração de ideias científicas, alcançando maior novidade, viabilidade, relevância e clareza por meio de avaliação automática e humana. O EvoScientist também melhora substancialmente as taxas de sucesso na execução de código por meio da evolução multiagente, demonstrando a eficácia da memória persistente para a descoberta científica de ponta a ponta.

English

The increasing adoption of Large Language Models (LLMs) has enabled AI scientists to perform complex end-to-end scientific discovery tasks requiring coordination of specialized roles, including idea generation and experimental execution. However, most state-of-the-art AI scientist systems rely on static, hand-designed pipelines and fail to adapt based on accumulated interaction histories. As a result, these systems overlook promising research directions, repeat failed experiments, and pursue infeasible ideas. To address this, we introduce EvoScientist, an evolving multi-agent AI scientist framework that continuously improves research strategies through persistent memory and self-evolution. EvoScientist comprises three specialized agents: a Researcher Agent (RA) for scientific idea generation, an Engineer Agent (EA) for experiment implementation and execution, and an Evolution Manager Agent (EMA) that distills insights from prior interactions into reusable knowledge. EvoScientist contains two persistent memory modules: (i) an ideation memory, which summarizes feasible research directions from top-ranked ideas while recording previously unsuccessful directions; and (ii) an experimentation memory, which captures effective data processing and model training strategies derived from code search trajectories and best-performing implementations. These modules enable the RA and EA to retrieve relevant prior strategies, improving idea quality and code execution success rates over time. Experiments show that EvoScientist outperforms 7 open-source and commercial state-of-the-art systems in scientific idea generation, achieving higher novelty, feasibility, relevance, and clarity via automatic and human evaluation. EvoScientist also substantially improves code execution success rates through multi-agent evolution, demonstrating persistent memory's effectiveness for end-to-end scientific discovery.