Ihr Agent könnte sich fehlentwickeln: Entstehende Risiken in selbstentwickelnden LLM-Agenten
Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents
September 30, 2025
papers.authors: Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao
cs.AI
papers.abstract
Fortschritte bei großen Sprachmodellen (LLMs) haben eine neue Klasse von selbstentwickelnden Agenten ermöglicht, die sich autonom durch Interaktion mit der Umwelt verbessern und dabei starke Fähigkeiten demonstrieren. Allerdings führt die Selbstentwicklung auch zu neuen Risiken, die von der aktuellen Sicherheitsforschung übersehen wurden. In dieser Arbeit untersuchen wir den Fall, in dem die Selbstentwicklung eines Agenten auf unerwünschte Weise abweicht und zu unerwünschten oder sogar schädlichen Ergebnissen führt. Wir bezeichnen dies als Fehlentwicklung. Um eine systematische Untersuchung zu ermöglichen, bewerten wir die Fehlentwicklung entlang vier zentraler Entwicklungswege: Modell, Gedächtnis, Werkzeug und Arbeitsablauf. Unsere empirischen Ergebnisse zeigen, dass Fehlentwicklung ein weit verbreitetes Risiko darstellt, das sogar Agenten betrifft, die auf erstklassigen LLMs (z. B. Gemini-2.5-Pro) basieren. Im Selbstentwicklungsprozess werden verschiedene aufkommende Risiken beobachtet, wie die Verschlechterung der Sicherheitsausrichtung nach der Anhäufung von Gedächtnisinhalten oder die unbeabsichtigte Einführung von Schwachstellen bei der Erstellung und Wiederverwendung von Werkzeugen. Unseres Wissens ist dies die erste Studie, die Fehlentwicklung systematisch konzeptualisiert und empirische Belege für ihr Auftreten liefert, was die dringende Notwendigkeit neuer Sicherheitsparadigmen für selbstentwickelnde Agenten unterstreicht. Abschließend diskutieren wir potenzielle Minderungsstrategien, um weitere Forschungen zur Entwicklung sichererer und vertrauenswürdigerer selbstentwickelnder Agenten anzuregen. Unser Code und unsere Daten sind unter https://github.com/ShaoShuai0605/Misevolution verfügbar. Warnung: Diese Arbeit enthält Beispiele, die anstößig oder schädlich sein können.
English
Advances in Large Language Models (LLMs) have enabled a new class of
self-evolving agents that autonomously improve through interaction with the
environment, demonstrating strong capabilities. However, self-evolution also
introduces novel risks overlooked by current safety research. In this work, we
study the case where an agent's self-evolution deviates in unintended ways,
leading to undesirable or even harmful outcomes. We refer to this as
Misevolution. To provide a systematic investigation, we evaluate misevolution
along four key evolutionary pathways: model, memory, tool, and workflow. Our
empirical findings reveal that misevolution is a widespread risk, affecting
agents built even on top-tier LLMs (e.g., Gemini-2.5-Pro). Different emergent
risks are observed in the self-evolutionary process, such as the degradation of
safety alignment after memory accumulation, or the unintended introduction of
vulnerabilities in tool creation and reuse. To our knowledge, this is the first
study to systematically conceptualize misevolution and provide empirical
evidence of its occurrence, highlighting an urgent need for new safety
paradigms for self-evolving agents. Finally, we discuss potential mitigation
strategies to inspire further research on building safer and more trustworthy
self-evolving agents. Our code and data are available at
https://github.com/ShaoShuai0605/Misevolution . Warning: this paper includes
examples that may be offensive or harmful in nature.