Wanneer is uw LLM stuurbaar?

Samenvatting

Actiesturing biedt een lichtgewicht aanpak om het gedrag van taalmodellen tijdens inferentie te beheersen, maar of het slaagt of faalt hangt sterk af van de prompt, het concept, het model en de stuurconfiguratie. Het vinden van het regime en de grenzen van succesvolle sturing vereist doorgaans dure grid searches en post-hoc evaluatie van volledige autoregressieve rollouts. In dit werk onderzoeken we of stuurbaarheid kan worden voorspeld op basis van de interne toestanden van het model aan het begin van het generatieproces, bijvoorbeeld na het genereren van de eerste paar tokens, en hoe een dergelijke voorspeller kan worden gebruikt om het succespercentage van sturing te verbeteren. Hiertoe introduceren we eerst ASTEER, een testomgeving met 1,4 miljoen gestuurde generaties, verdeeld over 150 concepten, elk gelabeld als succes of mislukking van de sturing. Met behulp van deze testomgeving analyseren we de vroege decodeerdynamiek van het model door kenmerken te extraheren die verborgen toestanden voor en na sturing vergelijken over lagen en initiële decodeerstappen. Deze kenmerken helpen ons te begrijpen hoe de effecten van sturing zich voortplanten langs lagen en tokenposities, wat belangrijke informatie oplevert voor het voorspellen van stuurbaarheid. Vervolgens trainen we een Gradient Boosting Decision Trees (GBDT)-classificator op deze kenmerken om te voorspellen of een interventie zal ondersturen, slagen of oversturen, zonder dat een volledige rollout nodig is. Onze voorspeller behaalt een macro-F1-score van ongeveer 0,7 op ongeziene concepten, wat aantoont dat vroege verborgen toestanden aanzienlijke, gestructureerde informatie bevatten over de uiteindelijke effectiviteit van sturing. We gebruiken deze voorspeller van stuurbaarheid verder als leidraad voor het zoeken naar stuursterkte, waarmee we bijna optimale prestaties bereiken tegen een fractie van de decodeerkosten.

English

Activation steering offers a lightweight approach to control language models' behavior at inference time, but whether it succeeds or fails heavily depends on the prompt, concept, model, and steering configuration. Finding the regime and boundaries of successful steering typically requires expensive grid searches and post-hoc evaluation of full autoregressive rollouts. In this work, we investigate whether steerability can be predicted from the model's internal states at the beginning of the generation process, e.g., after generating the first few tokens, and how to leverage such a predictor to improve steering success rate. To this end, we first introduce ASTEER, a testbed including 1.4M steered generations, spanning 150 concepts with each steering success/failure labeled. Leveraging this testbed, we analyze the model's early decoding dynamics by extracting features that compare hidden states before and after steering across layers and initial decoding steps. These features help us understand how steering's effects propagate along layers and token positions, which provide key information for steerability prediction. We then train a Gradient Boosting Decision Trees (GBDT) classifier on these features to predict whether an intervention will under-steer, succeed, or over-steer without requiring full rollout. Our predictor achieves around 0.7 macro-F1 score on unseen concepts, demonstrating that early hidden states encode substantial, structured information about eventual steering efficacy. We further leverage this steerability predictor as guidance for steering strength searching, achieving near-optimal performance with a small fraction of decoding cost.