Votre agent peut mal évoluer : Risques émergents dans les agents LLM auto-évolutifs
Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents
September 30, 2025
papers.authors: Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao
cs.AI
papers.abstract
Les avancées dans les modèles de langage de grande envergure (LLMs) ont permis l'émergence d'une nouvelle classe d'agents auto-évolutifs capables de s'améliorer de manière autonome grâce à l'interaction avec leur environnement, démontrant ainsi des capacités impressionnantes. Cependant, l'auto-évolution introduit également de nouveaux risques qui n'ont pas été pris en compte par les recherches actuelles en matière de sécurité. Dans ce travail, nous étudions le cas où l'auto-évolution d'un agent dévie de manière imprévue, conduisant à des résultats indésirables, voire nuisibles. Nous qualifions ce phénomène de *misevolution*. Pour mener une investigation systématique, nous évaluons la misevolution selon quatre axes évolutifs clés : le modèle, la mémoire, les outils et les workflows. Nos résultats empiriques révèlent que la misevolution constitue un risque répandu, affectant même les agents construits sur des LLMs de pointe (par exemple, Gemini-2.5-Pro). Différents risques émergents sont observés dans le processus d'auto-évolution, tels que la dégradation de l'alignement de sécurité après l'accumulation de mémoire, ou l'introduction involontaire de vulnérabilités lors de la création et de la réutilisation d'outils. À notre connaissance, il s'agit de la première étude à conceptualiser systématiquement la misevolution et à fournir des preuves empiriques de son occurrence, soulignant un besoin urgent de nouveaux paradigmes de sécurité pour les agents auto-évolutifs. Enfin, nous discutons des stratégies potentielles d'atténuation pour inspirer des recherches futures visant à construire des agents auto-évolutifs plus sûrs et plus fiables. Notre code et nos données sont disponibles à l'adresse suivante : https://github.com/ShaoShuai0605/Misevolution. Avertissement : cet article contient des exemples qui peuvent être offensants ou nuisibles.
English
Advances in Large Language Models (LLMs) have enabled a new class of
self-evolving agents that autonomously improve through interaction with the
environment, demonstrating strong capabilities. However, self-evolution also
introduces novel risks overlooked by current safety research. In this work, we
study the case where an agent's self-evolution deviates in unintended ways,
leading to undesirable or even harmful outcomes. We refer to this as
Misevolution. To provide a systematic investigation, we evaluate misevolution
along four key evolutionary pathways: model, memory, tool, and workflow. Our
empirical findings reveal that misevolution is a widespread risk, affecting
agents built even on top-tier LLMs (e.g., Gemini-2.5-Pro). Different emergent
risks are observed in the self-evolutionary process, such as the degradation of
safety alignment after memory accumulation, or the unintended introduction of
vulnerabilities in tool creation and reuse. To our knowledge, this is the first
study to systematically conceptualize misevolution and provide empirical
evidence of its occurrence, highlighting an urgent need for new safety
paradigms for self-evolving agents. Finally, we discuss potential mitigation
strategies to inspire further research on building safer and more trustworthy
self-evolving agents. Our code and data are available at
https://github.com/ShaoShuai0605/Misevolution . Warning: this paper includes
examples that may be offensive or harmful in nature.