Direcionando o Viés Conceitual via Ativação do Subespaço Latente de Transformers
Steering Conceptual Bias via Transformer Latent-Subspace Activation
June 23, 2025
Autores: Vansh Sharma, Venkat Raman
cs.AI
Resumo
Este trabalho investiga se a ativação de subespaços latentes em modelos de linguagem (LLMs) pode direcionar a geração de código científico para uma linguagem de programação específica. Cinco LLMs causais foram inicialmente avaliados em prompts de codificação científica para quantificar seu viés de base entre quatro linguagens de programação. Um método estático de atribuição de neurônios, que perturba o peso MLP mais ativado para um token C++ ou CPP, mostrou-se frágil e exibiu generalização limitada entre estilos de prompt e escalas de modelo. Para superar essas limitações, foi desenvolvido um framework de direcionamento adaptativo refinado por gradiente (G-ACT): diferenças de ativação por prompt são agrupadas em um pequeno conjunto de direções de direcionamento, e sondas leves por camada são treinadas e refinadas online para selecionar o vetor de direcionamento apropriado. No LLaMA-3.2 3B, essa abordagem direciona de forma confiável a geração para a linguagem CPP, aumentando a precisão média de classificação da sonda em 15% e melhorando a precisão de classificação da sonda nas camadas iniciais (0-6) em 61,5% em comparação com o framework ACT padrão. Para o LLaMA-3.3 70B, onde os sinais das cabeças de atenção se tornam mais difusos, injeções direcionadas em camadas-chave ainda melhoram a seleção de linguagem. Embora a sondagem por camada introduza uma sobrecarga modesta de inferência, ela permanece prática ao direcionar apenas um subconjunto de camadas e permite um comportamento de modelo reproduzível. Esses resultados demonstram um mecanismo escalável, interpretável e eficiente para controle em nível de conceito em sistemas agentes práticos.
English
This work examines whether activating latent subspaces in language models
(LLMs) can steer scientific code generation toward a specific programming
language. Five causal LLMs were first evaluated on scientific coding prompts to
quantify their baseline bias among four programming languages. A static
neuron-attribution method, perturbing the highest activated MLP weight for a
C++ or CPP token, proved brittle and exhibited limited generalization across
prompt styles and model scales. To address these limitations, a
gradient-refined adaptive activation steering framework (G-ACT) was developed:
per-prompt activation differences are clustered into a small set of steering
directions, and lightweight per-layer probes are trained and refined online to
select the appropriate steering vector. In LLaMA-3.2 3B, this approach reliably
biases generation towards the CPP language by increasing the average probe
classification accuracy by 15% and the early layers (0-6) improving the probe
classification accuracy by 61.5% compared to the standard ACT framework. For
LLaMA-3.3 70B, where attention-head signals become more diffuse, targeted
injections at key layers still improve language selection. Although per-layer
probing introduces a modest inference overhead, it remains practical by
steering only a subset of layers and enables reproducible model behavior. These
results demonstrate a scalable, interpretable and efficient mechanism for
concept-level control for practical agentic systems.