Wann ist Ihr LLM steuerbar?

Zusammenfassung

Die Aktivierungssteuerung bietet einen ressourcenschonenden Ansatz, um das Verhalten von Sprachmodellen zur Inferenzzeit zu steuern, wobei ihr Erfolg oder Misserfolg stark vom Prompt, Konzept, Modell und der Steuerungskonfiguration abhängt. Die Ermittlung des Bereichs und der Grenzen erfolgreicher Steuerung erfordert typischerweise aufwändige Rastersuchen und Post-hoc-Bewertungen vollständiger autoregressiver Rollouts. In dieser Arbeit untersuchen wir, ob die Steuerbarkeit aus den internen Zuständen des Modells zu Beginn des Generierungsprozesses vorhergesagt werden kann, z. B. nach der Generierung der ersten wenigen Token, und wie ein solcher Prädiktor genutzt werden kann, um die Erfolgsrate der Steuerung zu verbessern. Zu diesem Zweck führen wir zunächst ASTEER ein, eine Testplattform mit 1,4 Millionen gesteuerten Generierungen, die 150 Konzepte umfasst, wobei jede Steuerung als Erfolg/Misserfolg gekennzeichnet ist. Unter Nutzung dieser Testplattform analysieren wir die frühen Dekodierungsdynamiken des Modells, indem wir Merkmale extrahieren, die die versteckten Zustände vor und nach der Steuerung über Schichten und anfängliche Dekodierungsschritte hinweg vergleichen. Diese Merkmale helfen uns zu verstehen, wie sich die Effekte der Steuerung entlang von Schichten und Token-Positionen ausbreiten, was wichtige Informationen für die Vorhersage der Steuerbarkeit liefert. Anschließend trainieren wir einen Gradient Boosting Decision Trees (GBDT)-Klassifikator auf diesen Merkmalen, um vorherzusagen, ob eine Intervention zu einer Untersteuerung, einem Erfolg oder einer Übersteuerung führt, ohne dass ein vollständiger Rollout erforderlich ist. Unser Prädiktor erreicht einen Makro-F1-Wert von etwa 0,7 auf unbekannten Konzepten, was zeigt, dass frühe versteckte Zustände umfangreiche, strukturierte Informationen über die letztendliche Steuerungswirksamkeit codieren. Wir nutzen diesen Steuerbarkeitsprädiktor weiterhin als Leitfaden für die Suche nach der Steuerungsstärke und erzielen nahezu optimale Leistung mit einem kleinen Bruchteil der Dekodierungskosten.

English

Activation steering offers a lightweight approach to control language models' behavior at inference time, but whether it succeeds or fails heavily depends on the prompt, concept, model, and steering configuration. Finding the regime and boundaries of successful steering typically requires expensive grid searches and post-hoc evaluation of full autoregressive rollouts. In this work, we investigate whether steerability can be predicted from the model's internal states at the beginning of the generation process, e.g., after generating the first few tokens, and how to leverage such a predictor to improve steering success rate. To this end, we first introduce ASTEER, a testbed including 1.4M steered generations, spanning 150 concepts with each steering success/failure labeled. Leveraging this testbed, we analyze the model's early decoding dynamics by extracting features that compare hidden states before and after steering across layers and initial decoding steps. These features help us understand how steering's effects propagate along layers and token positions, which provide key information for steerability prediction. We then train a Gradient Boosting Decision Trees (GBDT) classifier on these features to predict whether an intervention will under-steer, succeed, or over-steer without requiring full rollout. Our predictor achieves around 0.7 macro-F1 score on unseen concepts, demonstrating that early hidden states encode substantial, structured information about eventual steering efficacy. We further leverage this steerability predictor as guidance for steering strength searching, achieving near-optimal performance with a small fraction of decoding cost.