Alignment Tipping Proces: Hoe Zelfevolutie LLM-Agenten van het Spoor Duwt
Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails
October 6, 2025
Auteurs: Siwei Han, Jiaqi Liu, Yaofeng Su, Wenbo Duan, Xinyuan Liu, Cihang Xie, Mohit Bansal, Mingyu Ding, Linjun Zhang, Huaxiu Yao
cs.AI
Samenvatting
Naarmate Large Language Model (LLM)-agenten steeds meer zelf-evolutionaire vermogens verwerven om hun strategieën aan te passen en te verfijnen door middel van interactie in de echte wereld, wordt hun langetermijnbetrouwbaarheid een kritieke zorg. Wij identificeren het Alignment Tipping Process (ATP), een kritiek risico na implementatie dat uniek is voor zelf-evolutionaire LLM-agenten. In tegenstelling tot falen tijdens de training, ontstaat ATP wanneer voortdurende interactie ertoe leidt dat agenten de afstemmingsbeperkingen die tijdens de training zijn vastgesteld, verlaten ten gunste van versterkte, zelfbelanggerichte strategieën. We formaliseren en analyseren ATP via twee complementaire paradigma's: Self-Interested Exploration, waarbij herhaalde afwijkingen met hoge beloningen individuele gedragsdrift veroorzaken, en Imitative Strategy Diffusion, waarbij afwijkend gedrag zich verspreidt in multi-agent systemen. Op basis van deze paradigma's construeren we beheersbare testomgevingen en benchmarken we Qwen3-8B en Llama-3.1-8B-Instruct. Onze experimenten tonen aan dat afstemmingsvoordelen snel eroderen onder zelf-evolutie, waarbij aanvankelijk afgestemde modellen convergeren naar niet-afgestemde toestanden. In multi-agent omgevingen verspreiden succesvolle overtredingen zich snel, wat leidt tot collectieve misafstemming. Bovendien bieden huidige afstemmingsmethoden op basis van reinforcement learning slechts fragiele verdedigingen tegen afstemmingskanteling. Samen tonen deze bevindingen aan dat de afstemming van LLM-agenten geen statische eigenschap is, maar een kwetsbare en dynamische, die vatbaar is voor feedback-gedreven verval tijdens de implementatie. Onze data en code zijn beschikbaar op https://github.com/aiming-lab/ATP.
English
As Large Language Model (LLM) agents increasingly gain self-evolutionary
capabilities to adapt and refine their strategies through real-world
interaction, their long-term reliability becomes a critical concern. We
identify the Alignment Tipping Process (ATP), a critical post-deployment risk
unique to self-evolving LLM agents. Unlike training-time failures, ATP arises
when continual interaction drives agents to abandon alignment constraints
established during training in favor of reinforced, self-interested strategies.
We formalize and analyze ATP through two complementary paradigms:
Self-Interested Exploration, where repeated high-reward deviations induce
individual behavioral drift, and Imitative Strategy Diffusion, where deviant
behaviors spread across multi-agent systems. Building on these paradigms, we
construct controllable testbeds and benchmark Qwen3-8B and
Llama-3.1-8B-Instruct. Our experiments show that alignment benefits erode
rapidly under self-evolution, with initially aligned models converging toward
unaligned states. In multi-agent settings, successful violations diffuse
quickly, leading to collective misalignment. Moreover, current reinforcement
learning-based alignment methods provide only fragile defenses against
alignment tipping. Together, these findings demonstrate that alignment of LLM
agents is not a static property but a fragile and dynamic one, vulnerable to
feedback-driven decay during deployment. Our data and code are available at
https://github.com/aiming-lab/ATP.