Quando o seu LLM é controlável?

Resumo

O direcionamento de ativação oferece uma abordagem leve para controlar o comportamento de modelos de linguagem durante a inferência, mas seu sucesso ou fracasso depende fortemente do prompt, conceito, modelo e configuração de direcionamento. Identificar o regime e os limites do direcionamento bem-sucedido geralmente exige buscas em grade caras e avaliação post-hoc de rollouts autorregressivos completos. Neste trabalho, investigamos se a direcionabilidade pode ser prevista a partir dos estados internos do modelo no início do processo de geração, por exemplo, após gerar os primeiros tokens, e como aproveitar esse preditor para melhorar a taxa de sucesso do direcionamento. Para isso, primeiro introduzimos o ASTEER, um ambiente de teste que inclui 1,4 milhões de gerações direcionadas, abrangendo 150 conceitos, cada uma rotulada como sucesso ou fracasso. Utilizando esse ambiente de teste, analisamos as dinâmicas iniciais de decodificação do modelo extraindo características que comparam estados ocultos antes e depois do direcionamento ao longo das camadas e das etapas iniciais de decodificação. Essas características nos ajudam a entender como os efeitos do direcionamento se propagam pelas camadas e posições dos tokens, fornecendo informações essenciais para a previsão da direcionabilidade. Em seguida, treinamos um classificador de Árvores de Decisão com Gradiente Impulsionado (GBDT) nessas características para prever se uma intervenção resultará em subdirecionamento, sucesso ou sobredirecionamento, sem exigir um rollout completo. Nosso preditor alcança uma pontuação macro-F1 de cerca de 0,7 em conceitos não vistos, demonstrando que estados ocultos iniciais codificam informações substanciais e estruturadas sobre a eficácia final do direcionamento. Além disso, aproveitamos esse preditor de direcionabilidade como guia para a busca da intensidade de direcionamento, alcançando desempenho quase ótimo com uma fração reduzida do custo de decodificação.

English

Activation steering offers a lightweight approach to control language models' behavior at inference time, but whether it succeeds or fails heavily depends on the prompt, concept, model, and steering configuration. Finding the regime and boundaries of successful steering typically requires expensive grid searches and post-hoc evaluation of full autoregressive rollouts. In this work, we investigate whether steerability can be predicted from the model's internal states at the beginning of the generation process, e.g., after generating the first few tokens, and how to leverage such a predictor to improve steering success rate. To this end, we first introduce ASTEER, a testbed including 1.4M steered generations, spanning 150 concepts with each steering success/failure labeled. Leveraging this testbed, we analyze the model's early decoding dynamics by extracting features that compare hidden states before and after steering across layers and initial decoding steps. These features help us understand how steering's effects propagate along layers and token positions, which provide key information for steerability prediction. We then train a Gradient Boosting Decision Trees (GBDT) classifier on these features to predict whether an intervention will under-steer, succeed, or over-steer without requiring full rollout. Our predictor achieves around 0.7 macro-F1 score on unseen concepts, demonstrating that early hidden states encode substantial, structured information about eventual steering efficacy. We further leverage this steerability predictor as guidance for steering strength searching, achieving near-optimal performance with a small fraction of decoding cost.