Uw Agent Kan Misevolueren: Opkomende Risico's in Zelf-evoluerende LLM-Agenten

Samenvatting

Vooruitgang in Large Language Models (LLMs) heeft een nieuwe klasse van zelf-evoluerende agents mogelijk gemaakt die autonoom verbeteren door interactie met de omgeving, waarbij ze sterke capaciteiten demonstreren. Zelf-evolutie introduceert echter ook nieuwe risico's die door het huidige veiligheidsonderzoek over het hoofd worden gezien. In dit werk bestuderen we het geval waarin de zelf-evolutie van een agent op onbedoelde manieren afwijkt, wat leidt tot ongewenste of zelfs schadelijke uitkomsten. We verwijzen hiernaar als Misevolutie. Om een systematisch onderzoek te bieden, evalueren we misevolutie langs vier belangrijke evolutionaire paden: model, geheugen, gereedschap en workflow. Onze empirische bevindingen tonen aan dat misevolutie een wijdverbreid risico is, dat zelfs agents beïnvloedt die zijn gebouwd op top-tier LLMs (bijvoorbeeld Gemini-2.5-Pro). Verschillende opkomende risico's worden waargenomen in het zelf-evolutionaire proces, zoals de degradatie van veiligheidsafstemming na geheugenaccumulatie, of de onbedoelde introductie van kwetsbaarheden bij het creëren en hergebruiken van gereedschappen. Voor zover wij weten, is dit de eerste studie die misevolutie systematisch conceptualiseert en empirisch bewijs levert van het optreden ervan, wat de dringende behoefte aan nieuwe veiligheidsparadigma's voor zelf-evoluerende agents benadrukt. Tot slot bespreken we potentiële mitigatiestrategieën om verder onderzoek te inspireren naar het bouwen van veiligere en betrouwbaardere zelf-evoluerende agents. Onze code en gegevens zijn beschikbaar op https://github.com/ShaoShuai0605/Misevolution. Waarschuwing: dit artikel bevat voorbeelden die aanstootgevend of schadelijk van aard kunnen zijn.

English

Advances in Large Language Models (LLMs) have enabled a new class of self-evolving agents that autonomously improve through interaction with the environment, demonstrating strong capabilities. However, self-evolution also introduces novel risks overlooked by current safety research. In this work, we study the case where an agent's self-evolution deviates in unintended ways, leading to undesirable or even harmful outcomes. We refer to this as Misevolution. To provide a systematic investigation, we evaluate misevolution along four key evolutionary pathways: model, memory, tool, and workflow. Our empirical findings reveal that misevolution is a widespread risk, affecting agents built even on top-tier LLMs (e.g., Gemini-2.5-Pro). Different emergent risks are observed in the self-evolutionary process, such as the degradation of safety alignment after memory accumulation, or the unintended introduction of vulnerabilities in tool creation and reuse. To our knowledge, this is the first study to systematically conceptualize misevolution and provide empirical evidence of its occurrence, highlighting an urgent need for new safety paradigms for self-evolving agents. Finally, we discuss potential mitigation strategies to inspire further research on building safer and more trustworthy self-evolving agents. Our code and data are available at https://github.com/ShaoShuai0605/Misevolution . Warning: this paper includes examples that may be offensive or harmful in nature.

Uw Agent Kan Misevolueren: Opkomende Risico's in Zelf-evoluerende LLM-Agenten

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Samenvatting

Support