Além da Engenharia de Prompts: Controle Robusto de Comportamento em LLMs via Direcionamento de Átomos Alvo
Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms
May 23, 2025
Autores: Mengru Wang, Ziwen Xu, Shengyu Mao, Shumin Deng, Zhaopeng Tu, Huajun Chen, Ningyu Zhang
cs.AI
Resumo
O controle preciso sobre a geração de modelos de linguagem é essencial para garantir segurança e confiabilidade. Embora a engenharia de prompts e a direcionamento sejam comumente usadas para intervir nos comportamentos dos modelos, o grande número de parâmetros nos modelos frequentemente resulta em representações internas altamente interligadas. Essa interdependência pode limitar a precisão do controle e, às vezes, levar a efeitos colaterais indesejados. Pesquisas recentes exploraram o uso de autoencoders esparsos (SAE) para desembaraçar o conhecimento em espaços de alta dimensionalidade para direcionamento. No entanto, essas aplicações foram limitadas a tarefas simples devido ao desafio não trivial de localizar componentes atômicos de conhecimento. Neste artigo, propomos Átomos de Direcionamento Alvo (STA), um método novo que isola e manipula componentes de conhecimento desembaraçados para aumentar a segurança. Experimentos abrangentes demonstram a eficácia da nossa abordagem. Análises adicionais revelam que o direcionamento exibe robustez e flexibilidade superiores, especialmente em cenários adversários. Também aplicamos a estratégia de direcionamento ao modelo de raciocínio em larga escala, confirmando sua eficácia no controle preciso do raciocínio.
English
Precise control over language model generation is vital for ensuring both
safety and reliability. Although prompt engineering and steering are commonly
used to intervene in model behaviors, the vast number of parameters in models
often results in highly intertwined internal representations. This
interdependency can limit control precision and sometimes lead to unintended
side effects. Recent research has explored the use of sparse autoencoders (SAE)
to disentangle knowledge in high-dimensional spaces for steering. However,
these applications have been limited to toy tasks owing to the nontrivial issue
of locating atomic knowledge components. In this paper, we propose Steering
Target Atoms (STA), a novel method that isolates and manipulates disentangled
knowledge components to enhance safety. Comprehensive experiments demonstrate
the effectiveness of our approach. Further analysis reveals that steering
exhibits superior robustness and flexibility, particularly in adversarial
scenarios. We also apply the steering strategy to the large reasoning model,
confirming its effectiveness in precise reasoning control.