Tu Agente Puede Evolucionar de Manera Incorrecta: Riesgos Emergentes en Agentes de LLM Autoevolutivos
Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents
September 30, 2025
Autores: Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao
cs.AI
Resumen
Los avances en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han permitido el surgimiento de una nueva clase de agentes auto-evolutivos que mejoran de manera autónoma a través de la interacción con el entorno, demostrando capacidades notables. Sin embargo, la auto-evolución también introduce riesgos novedosos que han sido pasados por alto en la investigación actual sobre seguridad. En este trabajo, estudiamos el caso en el que la auto-evolución de un agente se desvía de maneras no intencionadas, lo que conduce a resultados indeseables o incluso dañinos. Nos referimos a esto como **Misevolución**. Para proporcionar una investigación sistemática, evaluamos la misevolución a lo largo de cuatro vías evolutivas clave: modelo, memoria, herramientas y flujo de trabajo. Nuestros hallazgos empíricos revelan que la misevolución es un riesgo generalizado, que afecta incluso a agentes construidos sobre LLMs de primer nivel (por ejemplo, Gemini-2.5-Pro). Se observan diferentes riesgos emergentes en el proceso de auto-evolución, como la degradación de la alineación de seguridad después de la acumulación de memoria o la introducción no intencionada de vulnerabilidades en la creación y reutilización de herramientas. Hasta donde sabemos, este es el primer estudio en conceptualizar sistemáticamente la misevolución y proporcionar evidencia empírica de su ocurrencia, destacando la necesidad urgente de nuevos paradigmas de seguridad para agentes auto-evolutivos. Finalmente, discutimos posibles estrategias de mitigación para inspirar futuras investigaciones sobre la construcción de agentes auto-evolutivos más seguros y confiables. Nuestro código y datos están disponibles en https://github.com/ShaoShuai0605/Misevolution. **Advertencia**: este artículo incluye ejemplos que pueden ser ofensivos o dañinos por naturaleza.
English
Advances in Large Language Models (LLMs) have enabled a new class of
self-evolving agents that autonomously improve through interaction with the
environment, demonstrating strong capabilities. However, self-evolution also
introduces novel risks overlooked by current safety research. In this work, we
study the case where an agent's self-evolution deviates in unintended ways,
leading to undesirable or even harmful outcomes. We refer to this as
Misevolution. To provide a systematic investigation, we evaluate misevolution
along four key evolutionary pathways: model, memory, tool, and workflow. Our
empirical findings reveal that misevolution is a widespread risk, affecting
agents built even on top-tier LLMs (e.g., Gemini-2.5-Pro). Different emergent
risks are observed in the self-evolutionary process, such as the degradation of
safety alignment after memory accumulation, or the unintended introduction of
vulnerabilities in tool creation and reuse. To our knowledge, this is the first
study to systematically conceptualize misevolution and provide empirical
evidence of its occurrence, highlighting an urgent need for new safety
paradigms for self-evolving agents. Finally, we discuss potential mitigation
strategies to inspire further research on building safer and more trustworthy
self-evolving agents. Our code and data are available at
https://github.com/ShaoShuai0605/Misevolution . Warning: this paper includes
examples that may be offensive or harmful in nature.