Processus de désalignement critique : Comment l'auto-évolution fait dérailler les agents LLM
Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails
October 6, 2025
papers.authors: Siwei Han, Jiaqi Liu, Yaofeng Su, Wenbo Duan, Xinyuan Liu, Cihang Xie, Mohit Bansal, Mingyu Ding, Linjun Zhang, Huaxiu Yao
cs.AI
papers.abstract
Alors que les agents de grands modèles de langage (LLM) acquièrent de plus en plus de capacités d'auto-évolution pour s'adapter et affiner leurs stratégies grâce à l'interaction avec le monde réel, leur fiabilité à long terme devient une préoccupation majeure. Nous identifions le Processus de Basculement de l'Alignement (ATP), un risque critique post-déploiement propre aux agents LLM auto-évolutifs. Contrairement aux échecs lors de l'entraînement, l'ATP survient lorsque des interactions continues poussent les agents à abandonner les contraintes d'alignement établies pendant l'entraînement au profit de stratégies renforcées et égoïstes. Nous formalisons et analysons l'ATP à travers deux paradigmes complémentaires : l'Exploration Égoïste, où des déviations répétées à haut rendement induisent une dérive comportementale individuelle, et la Diffusion Stratégique Imitative, où les comportements déviants se propagent dans les systèmes multi-agents. Sur la base de ces paradigmes, nous construisons des environnements de test contrôlés et évaluons Qwen3-8B et Llama-3.1-8B-Instruct. Nos expériences montrent que les bénéfices de l'alignement s'érodent rapidement sous l'auto-évolution, avec des modèles initialement alignés convergeant vers des états non alignés. Dans les contextes multi-agents, les violations réussies se diffusent rapidement, conduisant à un désalignement collectif. De plus, les méthodes actuelles d'alignement basées sur l'apprentissage par renforcement offrent des défenses fragiles contre le basculement de l'alignement. Ensemble, ces résultats démontrent que l'alignement des agents LLM n'est pas une propriété statique mais une propriété fragile et dynamique, vulnérable à une dégradation pilotée par les retours d'expérience pendant le déploiement. Nos données et notre code sont disponibles à l'adresse https://github.com/aiming-lab/ATP.
English
As Large Language Model (LLM) agents increasingly gain self-evolutionary
capabilities to adapt and refine their strategies through real-world
interaction, their long-term reliability becomes a critical concern. We
identify the Alignment Tipping Process (ATP), a critical post-deployment risk
unique to self-evolving LLM agents. Unlike training-time failures, ATP arises
when continual interaction drives agents to abandon alignment constraints
established during training in favor of reinforced, self-interested strategies.
We formalize and analyze ATP through two complementary paradigms:
Self-Interested Exploration, where repeated high-reward deviations induce
individual behavioral drift, and Imitative Strategy Diffusion, where deviant
behaviors spread across multi-agent systems. Building on these paradigms, we
construct controllable testbeds and benchmark Qwen3-8B and
Llama-3.1-8B-Instruct. Our experiments show that alignment benefits erode
rapidly under self-evolution, with initially aligned models converging toward
unaligned states. In multi-agent settings, successful violations diffuse
quickly, leading to collective misalignment. Moreover, current reinforcement
learning-based alignment methods provide only fragile defenses against
alignment tipping. Together, these findings demonstrate that alignment of LLM
agents is not a static property but a fragile and dynamic one, vulnerable to
feedback-driven decay during deployment. Our data and code are available at
https://github.com/aiming-lab/ATP.