За пределами инженерии промптов: управление устойчивым поведением в больших языковых моделях через целевые атомы
Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms
May 23, 2025
Авторы: Mengru Wang, Ziwen Xu, Shengyu Mao, Shumin Deng, Zhaopeng Tu, Huajun Chen, Ningyu Zhang
cs.AI
Аннотация
Точный контроль над генерацией языковых моделей имеет решающее значение для обеспечения безопасности и надежности. Хотя инженерия подсказок и управление поведением моделей широко используются для вмешательства в их работу, огромное количество параметров в моделях часто приводит к сильно переплетенным внутренним представлениям. Эта взаимозависимость может ограничивать точность контроля и иногда приводить к непреднамеренным побочным эффектам. В последних исследованиях изучалось использование разреженных автокодировщиков (SAE) для разделения знаний в высокоразмерных пространствах с целью управления. Однако эти применения ограничивались упрощенными задачами из-за сложности локализации атомарных компонентов знаний. В данной статье мы предлагаем метод Steering Target Atoms (STA), который изолирует и манипулирует разделенными компонентами знаний для повышения безопасности. Комплексные эксперименты демонстрируют эффективность нашего подхода. Дополнительный анализ показывает, что управление демонстрирует превосходную устойчивость и гибкость, особенно в условиях атак. Мы также применяем стратегию управления к крупной модели рассуждений, подтверждая ее эффективность в точном контроле логических процессов.
English
Precise control over language model generation is vital for ensuring both
safety and reliability. Although prompt engineering and steering are commonly
used to intervene in model behaviors, the vast number of parameters in models
often results in highly intertwined internal representations. This
interdependency can limit control precision and sometimes lead to unintended
side effects. Recent research has explored the use of sparse autoencoders (SAE)
to disentangle knowledge in high-dimensional spaces for steering. However,
these applications have been limited to toy tasks owing to the nontrivial issue
of locating atomic knowledge components. In this paper, we propose Steering
Target Atoms (STA), a novel method that isolates and manipulates disentangled
knowledge components to enhance safety. Comprehensive experiments demonstrate
the effectiveness of our approach. Further analysis reveals that steering
exhibits superior robustness and flexibility, particularly in adversarial
scenarios. We also apply the steering strategy to the large reasoning model,
confirming its effectiveness in precise reasoning control.Summary
AI-Generated Summary