Quand votre LLM est-il contrôlable ?

Résumé

Le guidage par activation offre une approche légère pour contrôler le comportement des modèles de langage lors de l'inférence, mais sa réussite ou son échec dépend fortement de la requête, du concept, du modèle et de la configuration de guidage. Déterminer le régime et les limites d'un guidage réussi nécessite généralement des recherches par grille coûteuses et une évaluation post-hoc de déroulements autorégressifs complets. Dans ce travail, nous examinons si la guidabilité peut être prédite à partir des états internes du modèle au début du processus de génération, par exemple après la génération des premiers tokens, et comment exploiter un tel prédicteur pour améliorer le taux de succès du guidage. À cette fin, nous introduisons d'abord ASTEER, un banc d'essai comprenant 1,4 million de générations guidées, couvrant 150 concepts, chaque guidage étant étiqueté comme réussi ou échoué. En exploitant ce banc d'essai, nous analysons la dynamique précoce du décodage du modèle en extrayant des caractéristiques qui comparent les états cachés avant et après le guidage à travers les couches et les premières étapes de décodage. Ces caractéristiques nous aident à comprendre comment les effets du guidage se propagent le long des couches et des positions des tokens, fournissant des informations clés pour la prédiction de la guidabilité. Nous entraînons ensuite un classifieur à arbres de décision à gradient boosting (GBDT) sur ces caractéristiques afin de prédire si une intervention entraînera un sous-guidage, un succès ou un sur-guidage, sans nécessiter de déroulement complet. Notre prédicteur atteint un score F1 macro d'environ 0,7 sur des concepts non vus, démontrant que les états cachés précoces encodent une information substantielle et structurée sur l'efficacité ultime du guidage. Nous exploitons en outre ce prédicteur de guidabilité comme guide pour la recherche de l'intensité de guidage, obtenant des performances quasi optimales avec une fraction du coût de décodage.

English

Activation steering offers a lightweight approach to control language models' behavior at inference time, but whether it succeeds or fails heavily depends on the prompt, concept, model, and steering configuration. Finding the regime and boundaries of successful steering typically requires expensive grid searches and post-hoc evaluation of full autoregressive rollouts. In this work, we investigate whether steerability can be predicted from the model's internal states at the beginning of the generation process, e.g., after generating the first few tokens, and how to leverage such a predictor to improve steering success rate. To this end, we first introduce ASTEER, a testbed including 1.4M steered generations, spanning 150 concepts with each steering success/failure labeled. Leveraging this testbed, we analyze the model's early decoding dynamics by extracting features that compare hidden states before and after steering across layers and initial decoding steps. These features help us understand how steering's effects propagate along layers and token positions, which provide key information for steerability prediction. We then train a Gradient Boosting Decision Trees (GBDT) classifier on these features to predict whether an intervention will under-steer, succeed, or over-steer without requiring full rollout. Our predictor achieves around 0.7 macro-F1 score on unseen concepts, demonstrating that early hidden states encode substantial, structured information about eventual steering efficacy. We further leverage this steerability predictor as guidance for steering strength searching, achieving near-optimal performance with a small fraction of decoding cost.