Когда ваша LLM управляема?

Аннотация

Активационное управление представляет собой легковесный подход к контролю поведения языковых моделей на этапе логического вывода, однако его успешность или неудача существенно зависят от запроса, концепции, модели и конфигурации управления. Поиск режима и границ успешного управления обычно требует дорогостоящего перебора по сетке и последующей оценки полных авторегрессивных разверток. В данной работе мы исследуем, можно ли предсказать управляемость по внутренним состояниям модели в начале процесса генерации, например, после генерации первых нескольких токенов, и как использовать такой предиктор для повышения вероятности успешного управления. С этой целью мы сначала представляем ASTEER — тестовый набор, включающий 1,4 млн управляемых генераций, охватывающих 150 концепций, каждая из которых помечена как успешное или неудачное управление. Используя этот набор, мы анализируем раннюю динамику декодирования модели, извлекая признаки, которые сравнивают скрытые состояния до и после управления на различных слоях и этапах начального декодирования. Эти признаки помогают нам понять, как эффекты управления распространяются по слоям и токенным позициям, предоставляя ключевую информацию для предсказания управляемости. Затем мы обучаем классификатор на основе градиентного бустинга деревьев решений (GBDT) на этих признаках, чтобы предсказать, приведет ли вмешательство к недостаточному, успешному или чрезмерному управлению, без необходимости полной развертки. Наш предиктор достигает макро-F1 около 0,7 на невидимых концепциях, демонстрируя, что ранние скрытые состояния содержат значительную структурированную информацию о конечной эффективности управления. Мы также используем этот предиктор управляемости в качестве ориентира для поиска силы управления, достигая близкой к оптимальной производительности при незначительной доле затрат на декодирование.

English

Activation steering offers a lightweight approach to control language models' behavior at inference time, but whether it succeeds or fails heavily depends on the prompt, concept, model, and steering configuration. Finding the regime and boundaries of successful steering typically requires expensive grid searches and post-hoc evaluation of full autoregressive rollouts. In this work, we investigate whether steerability can be predicted from the model's internal states at the beginning of the generation process, e.g., after generating the first few tokens, and how to leverage such a predictor to improve steering success rate. To this end, we first introduce ASTEER, a testbed including 1.4M steered generations, spanning 150 concepts with each steering success/failure labeled. Leveraging this testbed, we analyze the model's early decoding dynamics by extracting features that compare hidden states before and after steering across layers and initial decoding steps. These features help us understand how steering's effects propagate along layers and token positions, which provide key information for steerability prediction. We then train a Gradient Boosting Decision Trees (GBDT) classifier on these features to predict whether an intervention will under-steer, succeed, or over-steer without requiring full rollout. Our predictor achieves around 0.7 macro-F1 score on unseen concepts, demonstrating that early hidden states encode substantial, structured information about eventual steering efficacy. We further leverage this steerability predictor as guidance for steering strength searching, achieving near-optimal performance with a small fraction of decoding cost.