¿Cuándo es su LLM dirigible?

Resumen

El direccionamiento de activación ofrece un enfoque ligero para controlar el comportamiento de los modelos de lenguaje en tiempo de inferencia, pero su éxito o fracaso depende en gran medida del prompt, el concepto, el modelo y la configuración de direccionamiento. Encontrar el régimen y los límites del direccionamiento exitoso normalmente requiere costosas búsquedas en cuadrícula y evaluación post-hoc de despliegues autoregresivos completos. En este trabajo, investigamos si la direccionabilidad puede predecirse a partir de los estados internos del modelo al inicio del proceso de generación, por ejemplo, después de generar los primeros tokens, y cómo aprovechar dicho predictor para mejorar la tasa de éxito del direccionamiento. Con este fin, primero presentamos ASTEER, un banco de pruebas que incluye 1.4 millones de generaciones dirigidas, abarcando 150 conceptos, cada una etiquetada como éxito o fracaso del direccionamiento. Aprovechando este banco de pruebas, analizamos la dinámica temprana de decodificación del modelo extrayendo características que comparan estados ocultos antes y después del direccionamiento a través de capas y pasos iniciales de decodificación. Estas características nos ayudan a entender cómo los efectos del direccionamiento se propagan a lo largo de las capas y posiciones de los tokens, lo que proporciona información clave para la predicción de direccionabilidad. Luego entrenamos un clasificador de Árboles de Decisión con Gradiente Potenciado (GBDT) sobre estas características para predecir si una intervención resultará en subdireccionamiento, éxito o sobredireccionamiento, sin necesidad de un despliegue completo. Nuestro predictor alcanza una puntuación F1 macro de alrededor de 0.7 en conceptos no vistos, demostrando que los estados ocultos tempranos codifican información sustancial y estructurada sobre la eficacia eventual del direccionamiento. Además, aprovechamos este predictor de direccionabilidad como guía para la búsqueda de la intensidad de direccionamiento, logrando un rendimiento casi óptimo con una pequeña fracción del costo de decodificación.

English

Activation steering offers a lightweight approach to control language models' behavior at inference time, but whether it succeeds or fails heavily depends on the prompt, concept, model, and steering configuration. Finding the regime and boundaries of successful steering typically requires expensive grid searches and post-hoc evaluation of full autoregressive rollouts. In this work, we investigate whether steerability can be predicted from the model's internal states at the beginning of the generation process, e.g., after generating the first few tokens, and how to leverage such a predictor to improve steering success rate. To this end, we first introduce ASTEER, a testbed including 1.4M steered generations, spanning 150 concepts with each steering success/failure labeled. Leveraging this testbed, we analyze the model's early decoding dynamics by extracting features that compare hidden states before and after steering across layers and initial decoding steps. These features help us understand how steering's effects propagate along layers and token positions, which provide key information for steerability prediction. We then train a Gradient Boosting Decision Trees (GBDT) classifier on these features to predict whether an intervention will under-steer, succeed, or over-steer without requiring full rollout. Our predictor achieves around 0.7 macro-F1 score on unseen concepts, demonstrating that early hidden states encode substantial, structured information about eventual steering efficacy. We further leverage this steerability predictor as guidance for steering strength searching, achieving near-optimal performance with a small fraction of decoding cost.