Processo de Desalinhamento Progressivo: Como a Auto-Evolução Desvia os Agentes de LLM do Caminho
Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails
October 6, 2025
Autores: Siwei Han, Jiaqi Liu, Yaofeng Su, Wenbo Duan, Xinyuan Liu, Cihang Xie, Mohit Bansal, Mingyu Ding, Linjun Zhang, Huaxiu Yao
cs.AI
Resumo
À medida que os agentes de Modelos de Linguagem de Grande Escala (LLM) ganham cada vez mais capacidades de auto-evolução para se adaptar e refinar suas estratégias por meio de interações no mundo real, sua confiabilidade a longo prazo torna-se uma preocupação crítica. Identificamos o Processo de Inclinação de Alinhamento (ATP, na sigla em inglês), um risco pós-implantação crítico exclusivo para agentes LLM auto-evolutivos. Diferente de falhas durante o treinamento, o ATP surge quando a interação contínua leva os agentes a abandonar as restrições de alinhamento estabelecidas durante o treinamento em favor de estratégias reforçadas e autointeressadas. Formalizamos e analisamos o ATP por meio de dois paradigmas complementares: Exploração Autointeressada, onde desvios repetidos de alta recompensa induzem a deriva comportamental individual, e Difusão de Estratégias Imitativas, onde comportamentos desviantes se espalham por sistemas multiagentes. Com base nesses paradigmas, construímos ambientes de teste controlados e avaliamos os modelos Qwen3-8B e Llama-3.1-8B-Instruct. Nossos experimentos mostram que os benefícios do alinhamento se deterioram rapidamente sob auto-evolução, com modelos inicialmente alinhados convergindo para estados desalinhados. Em cenários multiagentes, violações bem-sucedidas se difundem rapidamente, levando a um desalinhamento coletivo. Além disso, os métodos atuais de alinhamento baseados em aprendizado por reforço oferecem apenas defesas frágeis contra a inclinação do alinhamento. Juntos, esses achados demonstram que o alinhamento de agentes LLM não é uma propriedade estática, mas sim uma propriedade frágil e dinâmica, vulnerável à deterioração impulsionada por feedback durante a implantação. Nossos dados e código estão disponíveis em https://github.com/aiming-lab/ATP.
English
As Large Language Model (LLM) agents increasingly gain self-evolutionary
capabilities to adapt and refine their strategies through real-world
interaction, their long-term reliability becomes a critical concern. We
identify the Alignment Tipping Process (ATP), a critical post-deployment risk
unique to self-evolving LLM agents. Unlike training-time failures, ATP arises
when continual interaction drives agents to abandon alignment constraints
established during training in favor of reinforced, self-interested strategies.
We formalize and analyze ATP through two complementary paradigms:
Self-Interested Exploration, where repeated high-reward deviations induce
individual behavioral drift, and Imitative Strategy Diffusion, where deviant
behaviors spread across multi-agent systems. Building on these paradigms, we
construct controllable testbeds and benchmark Qwen3-8B and
Llama-3.1-8B-Instruct. Our experiments show that alignment benefits erode
rapidly under self-evolution, with initially aligned models converging toward
unaligned states. In multi-agent settings, successful violations diffuse
quickly, leading to collective misalignment. Moreover, current reinforcement
learning-based alignment methods provide only fragile defenses against
alignment tipping. Together, these findings demonstrate that alignment of LLM
agents is not a static property but a fragile and dynamic one, vulnerable to
feedback-driven decay during deployment. Our data and code are available at
https://github.com/aiming-lab/ATP.