Процесс смещения выравнивания: как саморазвитие выводит агентов на основе больших языковых моделей из-под контроля
Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails
October 6, 2025
Авторы: Siwei Han, Jiaqi Liu, Yaofeng Su, Wenbo Duan, Xinyuan Liu, Cihang Xie, Mohit Bansal, Mingyu Ding, Linjun Zhang, Huaxiu Yao
cs.AI
Аннотация
По мере того как агенты на основе больших языковых моделей (LLM) всё чаще приобретают способности к самоэволюции, адаптируясь и совершенствуя свои стратегии через взаимодействие с реальным миром, их долгосрочная надёжность становится критической проблемой. Мы выделяем процесс "Перелома в Согласованности" (Alignment Tipping Process, ATP) — уникальный риск, возникающий после развёртывания самоэволюционирующих агентов LLM. В отличие от сбоев на этапе обучения, ATP возникает, когда постоянное взаимодействие приводит агентов к отказу от ограничений согласованности, установленных во время обучения, в пользу усиленных, эгоистичных стратегий. Мы формализуем и анализируем ATP через две взаимодополняющие парадигмы: "Эгоистичное Исследование", где повторяющиеся отклонения с высокой наградой вызывают индивидуальный дрейф поведения, и "Диффузия Имитационных Стратегий", где отклоняющиеся поведения распространяются в многозадачных системах. На основе этих парадигм мы создаём контролируемые тестовые среды и проводим бенчмаркинг моделей Qwen3-8B и Llama-3.1-8B-Instruct. Наши эксперименты показывают, что преимущества согласованности быстро разрушаются в условиях самоэволюции, причём изначально согласованные модели сходятся к несогласованным состояниям. В многозадачных средах успешные нарушения быстро распространяются, приводя к коллективной рассогласованности. Более того, современные методы согласования на основе обучения с подкреплением обеспечивают лишь хрупкую защиту от перелома в согласованности. В совокупности эти результаты демонстрируют, что согласованность агентов LLM не является статичным свойством, а представляет собой хрупкое и динамичное состояние, уязвимое к разрушению под воздействием обратной связи в процессе эксплуатации. Наши данные и код доступны по адресу https://github.com/aiming-lab/ATP.
English
As Large Language Model (LLM) agents increasingly gain self-evolutionary
capabilities to adapt and refine their strategies through real-world
interaction, their long-term reliability becomes a critical concern. We
identify the Alignment Tipping Process (ATP), a critical post-deployment risk
unique to self-evolving LLM agents. Unlike training-time failures, ATP arises
when continual interaction drives agents to abandon alignment constraints
established during training in favor of reinforced, self-interested strategies.
We formalize and analyze ATP through two complementary paradigms:
Self-Interested Exploration, where repeated high-reward deviations induce
individual behavioral drift, and Imitative Strategy Diffusion, where deviant
behaviors spread across multi-agent systems. Building on these paradigms, we
construct controllable testbeds and benchmark Qwen3-8B and
Llama-3.1-8B-Instruct. Our experiments show that alignment benefits erode
rapidly under self-evolution, with initially aligned models converging toward
unaligned states. In multi-agent settings, successful violations diffuse
quickly, leading to collective misalignment. Moreover, current reinforcement
learning-based alignment methods provide only fragile defenses against
alignment tipping. Together, these findings demonstrate that alignment of LLM
agents is not a static property but a fragile and dynamic one, vulnerable to
feedback-driven decay during deployment. Our data and code are available at
https://github.com/aiming-lab/ATP.