Votre agent peut mal évoluer : Risques émergents dans les agents LLM auto-évolutifs

papers.abstract

Les avancées dans les modèles de langage de grande envergure (LLMs) ont permis l'émergence d'une nouvelle classe d'agents auto-évolutifs capables de s'améliorer de manière autonome grâce à l'interaction avec leur environnement, démontrant ainsi des capacités impressionnantes. Cependant, l'auto-évolution introduit également de nouveaux risques qui n'ont pas été pris en compte par les recherches actuelles en matière de sécurité. Dans ce travail, nous étudions le cas où l'auto-évolution d'un agent dévie de manière imprévue, conduisant à des résultats indésirables, voire nuisibles. Nous qualifions ce phénomène de *misevolution*. Pour mener une investigation systématique, nous évaluons la misevolution selon quatre axes évolutifs clés : le modèle, la mémoire, les outils et les workflows. Nos résultats empiriques révèlent que la misevolution constitue un risque répandu, affectant même les agents construits sur des LLMs de pointe (par exemple, Gemini-2.5-Pro). Différents risques émergents sont observés dans le processus d'auto-évolution, tels que la dégradation de l'alignement de sécurité après l'accumulation de mémoire, ou l'introduction involontaire de vulnérabilités lors de la création et de la réutilisation d'outils. À notre connaissance, il s'agit de la première étude à conceptualiser systématiquement la misevolution et à fournir des preuves empiriques de son occurrence, soulignant un besoin urgent de nouveaux paradigmes de sécurité pour les agents auto-évolutifs. Enfin, nous discutons des stratégies potentielles d'atténuation pour inspirer des recherches futures visant à construire des agents auto-évolutifs plus sûrs et plus fiables. Notre code et nos données sont disponibles à l'adresse suivante : https://github.com/ShaoShuai0605/Misevolution. Avertissement : cet article contient des exemples qui peuvent être offensants ou nuisibles.

English

Advances in Large Language Models (LLMs) have enabled a new class of self-evolving agents that autonomously improve through interaction with the environment, demonstrating strong capabilities. However, self-evolution also introduces novel risks overlooked by current safety research. In this work, we study the case where an agent's self-evolution deviates in unintended ways, leading to undesirable or even harmful outcomes. We refer to this as Misevolution. To provide a systematic investigation, we evaluate misevolution along four key evolutionary pathways: model, memory, tool, and workflow. Our empirical findings reveal that misevolution is a widespread risk, affecting agents built even on top-tier LLMs (e.g., Gemini-2.5-Pro). Different emergent risks are observed in the self-evolutionary process, such as the degradation of safety alignment after memory accumulation, or the unintended introduction of vulnerabilities in tool creation and reuse. To our knowledge, this is the first study to systematically conceptualize misevolution and provide empirical evidence of its occurrence, highlighting an urgent need for new safety paradigms for self-evolving agents. Finally, we discuss potential mitigation strategies to inspire further research on building safer and more trustworthy self-evolving agents. Our code and data are available at https://github.com/ShaoShuai0605/Misevolution . Warning: this paper includes examples that may be offensive or harmful in nature.

Votre agent peut mal évoluer : Risques émergents dans les agents LLM auto-évolutifs

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

papers.abstract

Support