ChatPaper.aiChatPaper

Control de Dirección: Evaluación Holística de la Dirección de Alineación en Modelos de Lenguaje de Gran Escala

SteeringControl: Holistic Evaluation of Alignment Steering in LLMs

September 16, 2025
Autores: Vincent Siu, Nicholas Crispino, David Park, Nathan W. Henry, Zhun Wang, Yang Liu, Dawn Song, Chenguang Wang
cs.AI

Resumen

Presentamos SteeringControl, un punto de referencia para evaluar métodos de direccionamiento de representaciones en objetivos centrales de alineación—sesgo, generación dañina y alucinación—y sus efectos en comportamientos secundarios como la adulación y la moralidad de sentido común. Si bien trabajos previos sobre alineación suelen destacar la veracidad o la capacidad de razonamiento para demostrar los efectos secundarios del direccionamiento de representaciones, encontramos que existen muchas compensaciones no exploradas que aún no se comprenden de manera sistemática. Recopilamos un conjunto de datos de comportamientos primarios y secundarios relevantes para la seguridad, con el fin de evaluar la efectividad del direccionamiento y el entrelazamiento conductual centrado en cinco métodos populares de direccionamiento. Para lograrlo, diseñamos un marco de direccionamiento modular basado en componentes únicos que sirven como bloques fundamentales de muchos métodos existentes. Nuestros resultados en Qwen-2.5-7B y Llama-3.1-8B muestran que un rendimiento sólido en el direccionamiento depende de la combinación específica del método de direccionamiento, el modelo y el comportamiento objetivo, y que una combinación deficiente de estos tres elementos también puede resultar en un grave entrelazamiento conceptual. Publicamos nuestro código aquí: https://github.com/wang-research-lab/SteeringControl.git.
English
We introduce SteeringControl, a benchmark for evaluating representation steering methods across core alignment objectives--bias, harmful generation, and hallucination--and their effects on secondary behaviors such as sycophancy and commonsense morality. While prior alignment work often highlights truthfulness or reasoning ability to demonstrate the side effects of representation steering, we find there are many unexplored tradeoffs not yet understood in a systematic way. We collect a dataset of safety-relevant primary and secondary behaviors to evaluate steering effectiveness and behavioral entanglement centered around five popular steering methods. To enable this, we craft a modular steering framework based on unique components that serve as the building blocks of many existing methods. Our results on Qwen-2.5-7B and Llama-3.1-8B find that strong steering performance is dependent on the specific combination of steering method, model, and targeted behavior, and that severe concept entanglement can result from poor combinations of these three as well. We release our code here: https://github.com/wang-research-lab/SteeringControl.git.
PDF31September 18, 2025