Ihr Agent könnte sich fehlentwickeln: Entstehende Risiken in selbstentwickelnden LLM-Agenten

papers.abstract

Fortschritte bei großen Sprachmodellen (LLMs) haben eine neue Klasse von selbstentwickelnden Agenten ermöglicht, die sich autonom durch Interaktion mit der Umwelt verbessern und dabei starke Fähigkeiten demonstrieren. Allerdings führt die Selbstentwicklung auch zu neuen Risiken, die von der aktuellen Sicherheitsforschung übersehen wurden. In dieser Arbeit untersuchen wir den Fall, in dem die Selbstentwicklung eines Agenten auf unerwünschte Weise abweicht und zu unerwünschten oder sogar schädlichen Ergebnissen führt. Wir bezeichnen dies als Fehlentwicklung. Um eine systematische Untersuchung zu ermöglichen, bewerten wir die Fehlentwicklung entlang vier zentraler Entwicklungswege: Modell, Gedächtnis, Werkzeug und Arbeitsablauf. Unsere empirischen Ergebnisse zeigen, dass Fehlentwicklung ein weit verbreitetes Risiko darstellt, das sogar Agenten betrifft, die auf erstklassigen LLMs (z. B. Gemini-2.5-Pro) basieren. Im Selbstentwicklungsprozess werden verschiedene aufkommende Risiken beobachtet, wie die Verschlechterung der Sicherheitsausrichtung nach der Anhäufung von Gedächtnisinhalten oder die unbeabsichtigte Einführung von Schwachstellen bei der Erstellung und Wiederverwendung von Werkzeugen. Unseres Wissens ist dies die erste Studie, die Fehlentwicklung systematisch konzeptualisiert und empirische Belege für ihr Auftreten liefert, was die dringende Notwendigkeit neuer Sicherheitsparadigmen für selbstentwickelnde Agenten unterstreicht. Abschließend diskutieren wir potenzielle Minderungsstrategien, um weitere Forschungen zur Entwicklung sichererer und vertrauenswürdigerer selbstentwickelnder Agenten anzuregen. Unser Code und unsere Daten sind unter https://github.com/ShaoShuai0605/Misevolution verfügbar. Warnung: Diese Arbeit enthält Beispiele, die anstößig oder schädlich sein können.

English

Advances in Large Language Models (LLMs) have enabled a new class of self-evolving agents that autonomously improve through interaction with the environment, demonstrating strong capabilities. However, self-evolution also introduces novel risks overlooked by current safety research. In this work, we study the case where an agent's self-evolution deviates in unintended ways, leading to undesirable or even harmful outcomes. We refer to this as Misevolution. To provide a systematic investigation, we evaluate misevolution along four key evolutionary pathways: model, memory, tool, and workflow. Our empirical findings reveal that misevolution is a widespread risk, affecting agents built even on top-tier LLMs (e.g., Gemini-2.5-Pro). Different emergent risks are observed in the self-evolutionary process, such as the degradation of safety alignment after memory accumulation, or the unintended introduction of vulnerabilities in tool creation and reuse. To our knowledge, this is the first study to systematically conceptualize misevolution and provide empirical evidence of its occurrence, highlighting an urgent need for new safety paradigms for self-evolving agents. Finally, we discuss potential mitigation strategies to inspire further research on building safer and more trustworthy self-evolving agents. Our code and data are available at https://github.com/ShaoShuai0605/Misevolution . Warning: this paper includes examples that may be offensive or harmful in nature.

Ihr Agent könnte sich fehlentwickeln: Entstehende Risiken in selbstentwickelnden LLM-Agenten

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

papers.abstract

Support