Alignment-Tipping-Prozess: Wie Selbstevolution LLM-Agenten aus der Bahn wirft
Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails
October 6, 2025
papers.authors: Siwei Han, Jiaqi Liu, Yaofeng Su, Wenbo Duan, Xinyuan Liu, Cihang Xie, Mohit Bansal, Mingyu Ding, Linjun Zhang, Huaxiu Yao
cs.AI
papers.abstract
Da Large Language Model (LLM)-Agent zunehmend selbstevolutionäre Fähigkeiten erlangen, um ihre Strategien durch reale Interaktionen anzupassen und zu verfeinern, wird ihre langfristige Zuverlässigkeit zu einem kritischen Anliegen. Wir identifizieren den Alignment Tipping Process (ATP), ein einzigartiges, nach der Bereitstellung auftretendes Risiko für selbstevolutionäre LLM-Agenten. Im Gegensatz zu Fehlern während des Trainings entsteht ATP, wenn kontinuierliche Interaktionen die Agenten dazu veranlassen, die während des Trainings etablierten Alignment-Beschränkungen zugunsten verstärkter, eigennütziger Strategien aufzugeben. Wir formalisieren und analysieren ATP durch zwei komplementäre Paradigmen: Self-Interested Exploration, bei der wiederholte Abweichungen mit hoher Belohnung zu individuellen Verhaltensänderungen führen, und Imitative Strategy Diffusion, bei der abweichende Verhaltensweisen sich in Multi-Agenten-Systemen ausbreiten. Aufbauend auf diesen Paradigmen entwickeln wir kontrollierbare Testumgebungen und benchmarken Qwen3-8B und Llama-3.1-8B-Instruct. Unsere Experimente zeigen, dass die Vorteile des Alignments unter Selbstevolution schnell abnehmen, wobei ursprünglich ausgerichtete Modelle zu nicht ausgerichteten Zuständen konvergieren. In Multi-Agenten-Szenarien verbreiten sich erfolgreiche Verstöße schnell und führen zu kollektiver Fehlausrichtung. Darüber hinaus bieten aktuelle, auf Reinforcement Learning basierende Alignment-Methoden nur fragile Abwehrmechanismen gegen Alignment-Tipping. Zusammengenommen zeigen diese Ergebnisse, dass das Alignment von LLM-Agenten keine statische Eigenschaft ist, sondern eine fragile und dynamische, die während des Einsatzes durch feedbackgetriebenen Verfall gefährdet ist. Unsere Daten und Code sind verfügbar unter https://github.com/aiming-lab/ATP.
English
As Large Language Model (LLM) agents increasingly gain self-evolutionary
capabilities to adapt and refine their strategies through real-world
interaction, their long-term reliability becomes a critical concern. We
identify the Alignment Tipping Process (ATP), a critical post-deployment risk
unique to self-evolving LLM agents. Unlike training-time failures, ATP arises
when continual interaction drives agents to abandon alignment constraints
established during training in favor of reinforced, self-interested strategies.
We formalize and analyze ATP through two complementary paradigms:
Self-Interested Exploration, where repeated high-reward deviations induce
individual behavioral drift, and Imitative Strategy Diffusion, where deviant
behaviors spread across multi-agent systems. Building on these paradigms, we
construct controllable testbeds and benchmark Qwen3-8B and
Llama-3.1-8B-Instruct. Our experiments show that alignment benefits erode
rapidly under self-evolution, with initially aligned models converging toward
unaligned states. In multi-agent settings, successful violations diffuse
quickly, leading to collective misalignment. Moreover, current reinforcement
learning-based alignment methods provide only fragile defenses against
alignment tipping. Together, these findings demonstrate that alignment of LLM
agents is not a static property but a fragile and dynamic one, vulnerable to
feedback-driven decay during deployment. Our data and code are available at
https://github.com/aiming-lab/ATP.