ChatPaper.aiChatPaper

Más allá de la ingeniería de prompts: Control robusto del comportamiento en LLMs mediante la dirección de átomos objetivo

Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms

May 23, 2025
Autores: Mengru Wang, Ziwen Xu, Shengyu Mao, Shumin Deng, Zhaopeng Tu, Huajun Chen, Ningyu Zhang
cs.AI

Resumen

El control preciso sobre la generación de modelos de lenguaje es fundamental para garantizar tanto la seguridad como la confiabilidad. Aunque la ingeniería de prompts y la dirección (steering) se utilizan comúnmente para intervenir en los comportamientos del modelo, la gran cantidad de parámetros en los modelos a menudo resulta en representaciones internas altamente interconectadas. Esta interdependencia puede limitar la precisión del control y, en ocasiones, provocar efectos secundarios no deseados. Investigaciones recientes han explorado el uso de autoencoders dispersos (SAE) para desenredar el conocimiento en espacios de alta dimensionalidad con fines de dirección. Sin embargo, estas aplicaciones se han limitado a tareas simples debido al problema no trivial de localizar componentes de conocimiento atómicos. En este artículo, proponemos Átomos de Dirección Objetivo (Steering Target Atoms, STA), un método novedoso que aísla y manipula componentes de conocimiento desenredados para mejorar la seguridad. Experimentos exhaustivos demuestran la efectividad de nuestro enfoque. Un análisis adicional revela que la dirección exhibe una robustez y flexibilidad superiores, particularmente en escenarios adversarios. También aplicamos la estrategia de dirección al modelo de razonamiento a gran escala, confirmando su efectividad en el control preciso del razonamiento.
English
Precise control over language model generation is vital for ensuring both safety and reliability. Although prompt engineering and steering are commonly used to intervene in model behaviors, the vast number of parameters in models often results in highly intertwined internal representations. This interdependency can limit control precision and sometimes lead to unintended side effects. Recent research has explored the use of sparse autoencoders (SAE) to disentangle knowledge in high-dimensional spaces for steering. However, these applications have been limited to toy tasks owing to the nontrivial issue of locating atomic knowledge components. In this paper, we propose Steering Target Atoms (STA), a novel method that isolates and manipulates disentangled knowledge components to enhance safety. Comprehensive experiments demonstrate the effectiveness of our approach. Further analysis reveals that steering exhibits superior robustness and flexibility, particularly in adversarial scenarios. We also apply the steering strategy to the large reasoning model, confirming its effectiveness in precise reasoning control.

Summary

AI-Generated Summary

PDF142May 28, 2025