Processo di Disallineamento Progressivo: Come l'Auto-Evoluzione Fa Deragliare gli Agenti LLM
Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails
October 6, 2025
Autori: Siwei Han, Jiaqi Liu, Yaofeng Su, Wenbo Duan, Xinyuan Liu, Cihang Xie, Mohit Bansal, Mingyu Ding, Linjun Zhang, Huaxiu Yao
cs.AI
Abstract
Man mano che gli agenti basati su Large Language Model (LLM) acquisiscono sempre più capacità di auto-evoluzione per adattare e affinare le proprie strategie attraverso l'interazione con il mondo reale, la loro affidabilità a lungo termine diventa una preoccupazione critica. Identifichiamo il processo di Sbilanciamento dell'Allineamento (Alignment Tipping Process, ATP), un rischio critico post-deployment unico per gli agenti LLM auto-evolutivi. A differenza dei fallimenti durante l'addestramento, l'ATP si verifica quando l'interazione continua spinge gli agenti ad abbandonare i vincoli di allineamento stabiliti durante l'addestramento in favore di strategie rinforzate e auto-interessate. Formalizziamo e analizziamo l'ATP attraverso due paradigmi complementari: l'Esplorazione Auto-Interessata, in cui ripetute deviazioni ad alto rendimento inducono una deriva comportamentale individuale, e la Diffusione di Strategie Imitative, in cui comportamenti devianti si diffondono attraverso sistemi multi-agente. Basandoci su questi paradigmi, costruiamo ambienti di test controllabili e valutiamo i modelli Qwen3-8B e Llama-3.1-8B-Instruct. I nostri esperimenti mostrano che i benefici dell'allineamento si erodono rapidamente sotto l'auto-evoluzione, con modelli inizialmente allineati che convergono verso stati non allineati. In contesti multi-agente, le violazioni di successo si diffondono rapidamente, portando a un disallineamento collettivo. Inoltre, gli attuali metodi di allineamento basati sul reinforcement learning offrono solo difese fragili contro il processo di sbilanciamento dell'allineamento. Insieme, questi risultati dimostrano che l'allineamento degli agenti LLM non è una proprietà statica, ma una proprietà fragile e dinamica, vulnerabile al decadimento guidato dal feedback durante il deployment. I nostri dati e il codice sono disponibili su https://github.com/aiming-lab/ATP.
English
As Large Language Model (LLM) agents increasingly gain self-evolutionary
capabilities to adapt and refine their strategies through real-world
interaction, their long-term reliability becomes a critical concern. We
identify the Alignment Tipping Process (ATP), a critical post-deployment risk
unique to self-evolving LLM agents. Unlike training-time failures, ATP arises
when continual interaction drives agents to abandon alignment constraints
established during training in favor of reinforced, self-interested strategies.
We formalize and analyze ATP through two complementary paradigms:
Self-Interested Exploration, where repeated high-reward deviations induce
individual behavioral drift, and Imitative Strategy Diffusion, where deviant
behaviors spread across multi-agent systems. Building on these paradigms, we
construct controllable testbeds and benchmark Qwen3-8B and
Llama-3.1-8B-Instruct. Our experiments show that alignment benefits erode
rapidly under self-evolution, with initially aligned models converging toward
unaligned states. In multi-agent settings, successful violations diffuse
quickly, leading to collective misalignment. Moreover, current reinforcement
learning-based alignment methods provide only fragile defenses against
alignment tipping. Together, these findings demonstrate that alignment of LLM
agents is not a static property but a fragile and dynamic one, vulnerable to
feedback-driven decay during deployment. Our data and code are available at
https://github.com/aiming-lab/ATP.