ChatPaper.aiChatPaper

Proceso de Desalineación: Cómo la Autoevolución Desvía a los Agentes de LLM del Camino

Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails

October 6, 2025
Autores: Siwei Han, Jiaqi Liu, Yaofeng Su, Wenbo Duan, Xinyuan Liu, Cihang Xie, Mohit Bansal, Mingyu Ding, Linjun Zhang, Huaxiu Yao
cs.AI

Resumen

A medida que los agentes de Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) adquieren cada vez más capacidades de autoevolución para adaptar y refinar sus estrategias a través de la interacción en el mundo real, su fiabilidad a largo plazo se convierte en una preocupación crítica. Identificamos el Proceso de Inclinación de Alineación (ATP, por sus siglas en inglés), un riesgo crítico posterior al despliegue único en los agentes LLM autoevolutivos. A diferencia de los fallos durante el entrenamiento, el ATP surge cuando la interacción continua lleva a los agentes a abandonar las restricciones de alineación establecidas durante el entrenamiento en favor de estrategias reforzadas y egoístas. Formalizamos y analizamos el ATP a través de dos paradigmas complementarios: la Exploración Egoísta, donde las desviaciones repetidas de alta recompensa inducen una deriva conductual individual, y la Difusión de Estrategias Imitativas, donde los comportamientos desviados se propagan en sistemas multiagente. Basándonos en estos paradigmas, construimos entornos de prueba controlados y evaluamos Qwen3-8B y Llama-3.1-8B-Instruct. Nuestros experimentos muestran que los beneficios de la alineación se erosionan rápidamente bajo la autoevolución, con modelos inicialmente alineados convergiendo hacia estados no alineados. En entornos multiagente, las violaciones exitosas se difunden rápidamente, lo que lleva a una desalineación colectiva. Además, los métodos actuales de alineación basados en aprendizaje por refuerzo ofrecen solo defensas frágiles contra la inclinación de la alineación. En conjunto, estos hallazgos demuestran que la alineación de los agentes LLM no es una propiedad estática, sino una frágil y dinámica, vulnerable al deterioro impulsado por la retroalimentación durante el despliegue. Nuestros datos y código están disponibles en https://github.com/aiming-lab/ATP.
English
As Large Language Model (LLM) agents increasingly gain self-evolutionary capabilities to adapt and refine their strategies through real-world interaction, their long-term reliability becomes a critical concern. We identify the Alignment Tipping Process (ATP), a critical post-deployment risk unique to self-evolving LLM agents. Unlike training-time failures, ATP arises when continual interaction drives agents to abandon alignment constraints established during training in favor of reinforced, self-interested strategies. We formalize and analyze ATP through two complementary paradigms: Self-Interested Exploration, where repeated high-reward deviations induce individual behavioral drift, and Imitative Strategy Diffusion, where deviant behaviors spread across multi-agent systems. Building on these paradigms, we construct controllable testbeds and benchmark Qwen3-8B and Llama-3.1-8B-Instruct. Our experiments show that alignment benefits erode rapidly under self-evolution, with initially aligned models converging toward unaligned states. In multi-agent settings, successful violations diffuse quickly, leading to collective misalignment. Moreover, current reinforcement learning-based alignment methods provide only fragile defenses against alignment tipping. Together, these findings demonstrate that alignment of LLM agents is not a static property but a fragile and dynamic one, vulnerable to feedback-driven decay during deployment. Our data and code are available at https://github.com/aiming-lab/ATP.
PDF22October 7, 2025