Uw Agent Kan Misevolueren: Opkomende Risico's in Zelf-evoluerende LLM-Agenten
Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents
September 30, 2025
Auteurs: Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao
cs.AI
Samenvatting
Vooruitgang in Large Language Models (LLMs) heeft een nieuwe klasse van zelf-evoluerende agents mogelijk gemaakt die autonoom verbeteren door interactie met de omgeving, waarbij ze sterke capaciteiten demonstreren. Zelf-evolutie introduceert echter ook nieuwe risico's die door het huidige veiligheidsonderzoek over het hoofd worden gezien. In dit werk bestuderen we het geval waarin de zelf-evolutie van een agent op onbedoelde manieren afwijkt, wat leidt tot ongewenste of zelfs schadelijke uitkomsten. We verwijzen hiernaar als Misevolutie. Om een systematisch onderzoek te bieden, evalueren we misevolutie langs vier belangrijke evolutionaire paden: model, geheugen, gereedschap en workflow. Onze empirische bevindingen tonen aan dat misevolutie een wijdverbreid risico is, dat zelfs agents beïnvloedt die zijn gebouwd op top-tier LLMs (bijvoorbeeld Gemini-2.5-Pro). Verschillende opkomende risico's worden waargenomen in het zelf-evolutionaire proces, zoals de degradatie van veiligheidsafstemming na geheugenaccumulatie, of de onbedoelde introductie van kwetsbaarheden bij het creëren en hergebruiken van gereedschappen. Voor zover wij weten, is dit de eerste studie die misevolutie systematisch conceptualiseert en empirisch bewijs levert van het optreden ervan, wat de dringende behoefte aan nieuwe veiligheidsparadigma's voor zelf-evoluerende agents benadrukt. Tot slot bespreken we potentiële mitigatiestrategieën om verder onderzoek te inspireren naar het bouwen van veiligere en betrouwbaardere zelf-evoluerende agents. Onze code en gegevens zijn beschikbaar op https://github.com/ShaoShuai0605/Misevolution. Waarschuwing: dit artikel bevat voorbeelden die aanstootgevend of schadelijk van aard kunnen zijn.
English
Advances in Large Language Models (LLMs) have enabled a new class of
self-evolving agents that autonomously improve through interaction with the
environment, demonstrating strong capabilities. However, self-evolution also
introduces novel risks overlooked by current safety research. In this work, we
study the case where an agent's self-evolution deviates in unintended ways,
leading to undesirable or even harmful outcomes. We refer to this as
Misevolution. To provide a systematic investigation, we evaluate misevolution
along four key evolutionary pathways: model, memory, tool, and workflow. Our
empirical findings reveal that misevolution is a widespread risk, affecting
agents built even on top-tier LLMs (e.g., Gemini-2.5-Pro). Different emergent
risks are observed in the self-evolutionary process, such as the degradation of
safety alignment after memory accumulation, or the unintended introduction of
vulnerabilities in tool creation and reuse. To our knowledge, this is the first
study to systematically conceptualize misevolution and provide empirical
evidence of its occurrence, highlighting an urgent need for new safety
paradigms for self-evolving agents. Finally, we discuss potential mitigation
strategies to inspire further research on building safer and more trustworthy
self-evolving agents. Our code and data are available at
https://github.com/ShaoShuai0605/Misevolution . Warning: this paper includes
examples that may be offensive or harmful in nature.