EvoScientist: Hacia Científicos de IA Multiagente en Evolución para el Descubrimiento Científico Integral

Resumen

La creciente adopción de modelos de lenguaje extenso (LLM) ha permitido a los científicos de IA realizar tareas complejas de descubrimiento científico de extremo a extremo que requieren la coordinación de roles especializados, incluyendo la generación de ideas y la ejecución experimental. Sin embargo, la mayoría de los sistemas de científicos de IA de vanguardia dependen de flujos de trabajo estáticos y diseñados manualmente, y no logran adaptarse basándose en historiales de interacción acumulados. Como resultado, estos sistemas pasan por alto direcciones de investigación prometedoras, repiten experimentos fallidos y persiguen ideas inviables. Para abordar esto, presentamos EvoScientist, un marco evolutivo de científico de IA multiagente que mejora continuamente las estrategias de investigación a través de memoria persistente y auto-evolución. EvoScientist comprende tres agentes especializados: un Agente Investigador (RA) para la generación de ideas científicas, un Agente Ingeniero (EA) para la implementación y ejecución de experimentos, y un Agente Gestor de Evolución (EMA) que destila conocimientos de interacciones previas en conocimiento reutilizable. EvoScientist contiene dos módulos de memoria persistente: (i) una memoria de ideación, que resume direcciones de investigación viables a partir de ideas mejor clasificadas mientras registra direcciones previamente fallidas; y (ii) una memoria de experimentación, que captura estrategias efectivas de procesamiento de datos y entrenamiento de modelos derivadas de trayectorias de búsqueda de código e implementaciones de mejor rendimiento. Estos módulos permiten al RA y al EA recuperar estrategias previas relevantes, mejorando la calidad de las ideas y las tasas de éxito en la ejecución de código con el tiempo. Los experimentos muestran que EvoScientist supera a 7 sistemas de código abierto y comerciales de vanguardia en generación de ideas científicas, logrando mayor novedad, viabilidad, relevancia y claridad mediante evaluación automática y humana. EvoScientist también mejora sustancialmente las tasas de éxito en la ejecución de código a través de la evolución multiagente, demostrando la efectividad de la memoria persistente para el descubrimiento científico de extremo a extremo.

English

The increasing adoption of Large Language Models (LLMs) has enabled AI scientists to perform complex end-to-end scientific discovery tasks requiring coordination of specialized roles, including idea generation and experimental execution. However, most state-of-the-art AI scientist systems rely on static, hand-designed pipelines and fail to adapt based on accumulated interaction histories. As a result, these systems overlook promising research directions, repeat failed experiments, and pursue infeasible ideas. To address this, we introduce EvoScientist, an evolving multi-agent AI scientist framework that continuously improves research strategies through persistent memory and self-evolution. EvoScientist comprises three specialized agents: a Researcher Agent (RA) for scientific idea generation, an Engineer Agent (EA) for experiment implementation and execution, and an Evolution Manager Agent (EMA) that distills insights from prior interactions into reusable knowledge. EvoScientist contains two persistent memory modules: (i) an ideation memory, which summarizes feasible research directions from top-ranked ideas while recording previously unsuccessful directions; and (ii) an experimentation memory, which captures effective data processing and model training strategies derived from code search trajectories and best-performing implementations. These modules enable the RA and EA to retrieve relevant prior strategies, improving idea quality and code execution success rates over time. Experiments show that EvoScientist outperforms 7 open-source and commercial state-of-the-art systems in scientific idea generation, achieving higher novelty, feasibility, relevance, and clarity via automatic and human evaluation. EvoScientist also substantially improves code execution success rates through multi-agent evolution, demonstrating persistent memory's effectiveness for end-to-end scientific discovery.

EvoScientist: Hacia Científicos de IA Multiagente en Evolución para el Descubrimiento Científico Integral

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

Resumen

Support